
难度系数:
课程系列:敏捷算法建模训练营周末班
在数字经济时代,利用数字化知识可以使企业摆脱单一供给,并深度挖掘用户需求,探索多元的业务场景。本课程将会从企业的角度出发讲解不同阶段数据应用的建设思路,培养学员掌握企业需要的敏捷算法建模能力,并规划未来发展的路线图。 同时,从找出问题→确定问题→数据清洗→数据建模→数据验证到挖掘出有价值的数据分析思路,并确认适合企业的解决方案。让学员掌握可落地、易操作的数据科学思维和技术模板构建出优秀模型。
课程中涵盖了Sklearn、LightGBM、NLP、PyTorch、Transformer等常用工具的应用实现,并根据输出的结果分析业务需求,为进行合理、有效的策略优化提供数据支撑。 在课程学习中以问题为导向,加强知识点的理解和应用,提高学员面对复杂问题的思考能力。聚焦策略分析技术及企业常用的分类、NLP、深度学习、特征工程等数据算法,只教实用干货,以专精技术能力提升业务效果与效率。
课程涉及大量企业项目案例:精准营销预测、营销策略优化、客户行为分析、风险管理、客户管理、智能推荐、情感分析、反欺诈等,加持实战经验,为学员进入名企提供项目背书。 对数据科学岗位认知程度比较浅的学员,可在职业规划团队老师的帮助下选择适合学员的职业发展路线。进一步从职场综合能力要求出发,通过经验赋能快速提升岗位匹配度。
在职提升人群
· 算法建模少 想获得最优策略算法的人员
· 工作经验少 想提升数据挖掘技能的人员
· 业余时间多 想提高数据思维能力的人员
转行数据分析人群
· 自学难度大 想零基础快速入门的人员
· 升职加薪难 想要跳槽大幅涨薪的人员
· 行业不景气 想进新兴数据行业的人员
在职提升和转岗人群
· 工作任务重 想提高工作效率的财务、市场等人员
· 竞争压力大 想突破职业瓶颈的产品、运营等人员
· 行业挑战多 想提升战略思维的决策、管理等人员
CDA报考人群
· 报名参加 CDA Level I 等级考试的考生
· 报名参加 CDA Level ll 等级考试的考生
· 报名参加 CDA Level llI 等级考试的考生
以上数据来自职友集,最新更新时间为2022年8月20日
利用sql语言对数据进行加工处理,标签化,并依据标签情况,利用python进行用户画像绘制。
通过对淘宝用户行为相关数据进行分析,帮助商家监控目前数据趋势,分析并改善转化链路,助力业务侧方向提升。
使用某电商真实用户交易数据,在用户生命周期中,运用分析方法论分析不同用户的行为特征、价值贡献等。
在这份研究需求中,我们希望了解哪些地区更相似,因为相似的地区适宜进行对标,同时我们也关注各个地区是否能按照发展水平划分不同的类型
对于银行统计的客户订购产品的订单,进行产品订购的关联挖掘,达到发现客户多种需求,维护客户关系管理的数据策略
使用新闻数据,利用文本分析技术对新闻文本进行特征加工等相关工作,并训练分类模型,实现文本的自动分类。
给定一个足够大的语料库,以深度学习NLP算法训练一个机器人。当传入一个问题时,算法可以自动从该语料库中找到答案。
主要内容
・数据库基本概念 ・DDL ・DML ・单表查询 ・多表查询 ・常用函数
・SQL 大厂面试题
可解决的现实问题
解决从数据库提取目标数据的问题,实现单表和多表查询
可掌握的核心能力
1、掌握 MySQL 数据库基本概念,常用函数、DDL 数据定义语言及 DML 数据操作语言
2、掌握单表查询、多表查询查询方法,查询结果排序、限制查询等方法
主要内容
・Numpy 数组 ・Pandas 数表 ・Pandas 数据清洗与可视化 ・控制流 ・类与对象
・自定义函数
可解决的现实问题
解决海量数据处理的技术问题
可掌握的核心能力
掌握使用 Python 进行海量数据清洗以及可视化探索数据的能力。
主要内容
・线性代数 ・微积分 ・描述性统计 ・参数估计 ・假设检验 ・卡方分析
・相关分析 ・一元线性回归
可解决的现实问题
解决实际情况中根据样本对总体特征的推断性统计问题
可掌握的核心能力
1、掌握数学基础知识(线性代数、微积分等)
2、掌握统计学基础知识(描述性统计、参数估计、相关分析、卡方分析、一元线性回归等)
主要内容
・MySQL 语句 ・Python 连接 SQL 数据库 ・SQL
・实操案例:零售电商多表分析
可解决的现实问题
解决 Python 连接 SQL 数据库的问题
可掌握的核心能力
1、掌握数据库 MySQL 语句与实战
2、Python 连接 SQL 数据库
3、掌握案例:零售电商多表分析
主要内容
・分析基础 ・指标体系的意义与构建 ・常用指标体系 ・统计分析可视化 ・指标体系
・案例:企业经营分析
可解决的现实问题
解决常用指标体系的构建及统计分析可视化
可掌握的核心能力
1、掌握数据分析基础:数据分析的概念、过程、能力
2、掌握常用指标体系的意义与构建
3、掌握统计分析可视化
4、掌握指标体系案例:企业经营分析
主要内容
・Python 基础 ・Python 数据清洗可视化 ・Python 实操
・案例:
・教育行业分析-学校学科教育可视化
・数据分析师岗位需求-lagou 数据处理及分析
可解决的现实问题
使用 Pandas 做数据清洗与数据探索
可掌握的核心能力
1、掌握 Python 基础与数据清洗可视化
2、掌握 Python 实操案例:教育行业分析-学校学科教育可视化
3、掌握 Python 实操案例: 数据分析师岗位需求-lagou数据处理及分析
主要内容
・统计分析 ・相关分析 ・方差分析 ・线性回归 ・模型建立 ・模型估计
・模型检验
・实操案例:识别分析-用户支出影响因素分析
可解决的现实问题
灵活使用统计分析解决各行业的业务问题
可掌握的核心能力
1、掌握统计分析,包含相关分析,方差分析等
2、掌握线性回归,包含模型的建立与估计等
3、掌握统计模型的检验
4、掌握案例:识别分析-用户支出影响因素分析
主要内容
・逻辑回归 ・模型评估 ・分类与回归的结合 ・数据降维 ・主成分分析
・因子分析 ・实操案例: ・用户流失分析-员工流失预警 ・因子分析-城市发展水平综合分析
可解决的现实问题
灵活使用逻辑回归、模型评估等技能,解决行业实际业务文字
可掌握的核心能力
1、掌握逻辑回归,包含模型的建立与估计
2、掌握模型评估、分类与回归的结合
3、掌握信息压缩-主成分分析与因子分析(数据降维)
4、掌握案例:用户流失分析-员工流失预警
5、掌握案例:因子分析-城市发展水平综合分析
主要内容
・标签体系的设计原理 ・用户标签的制作方法 ・客群分析-标签体系与用户画像 ・AB test
・实操案例: 应用用户画像-美国某企业用户画像实战案例
可解决的现实问题
使用标签体系知识对用户画像进行分析
可掌握的核心能力
1、掌握标签体系的设计原理
2、掌握用户标签的制作方法
3、掌握客群分析-标签体系与用户画像
4、掌握 AB test 应用最广泛的对比分析方法
5、掌握案例:应用用户画像-美国某企业用户画像实战案例
主要内容
・时间序列分析 ・ARIMA算法 ・Box-Jenkins 建模 ・时间序列回归
・实操案例: 销售额预测-线上平台销售额预测实战案例
可解决的现实问题
使用时间序列知识实现对平台销售额的预测
可掌握的核心能力
1、掌握时间序列分析(ARIMA 算法)
2、掌握 Box-Jenkins 建模流程
3、掌握时间序列回归
4、掌握案例:销售额预测-线上平台销售额预测实战案例
主要内容
・数据采集 ・数据录入 ・数据清洗 ・特征工程基础 ・特征预处理 ・特征的选择转换
・数据管理 ・数据分类 ・数据建模
实操案例: 产品目标人群分析-市场数据的应用案例
可解决的现实问题
使用数据采集与预处理和结合特征工程知识,实现对产品目标人群的分析
可掌握的核心能力
1、掌握数据采集处理方法,包含数据采集、数据录入、数据清洗
2、掌握特征工程基础,包含特征预处理、特征的选择与转换
3、掌握数据管理,包含数据分类、数据建模
4、掌握案例:产品目标人群分析-市场数据的应用案例
主要内容
・层次聚类 ・Kmeans 聚类 ・决策树应用 ・聚类分析评价方法
・实操案例: 用户分群-零售行业运营案例
可解决的现实问题
使用聚类分析与决策树,实现对零售行业用户分群运营
可掌握的核心能力
1、掌握层次聚类知识
2、掌握 Kmeans 聚类知识
3、掌握聚类分析评价方法-决策树应用
4、掌握案例:用户分群-零售行业运营案例
主要内容
・数字化工作方法 ・运筹优化方法 ・线性规划与二次优化 ・基于业务流程的优化
・实操案例: 数字化运营综合案例-某机构营销响应概率预测与风险预测案例
可解决的现实问题
使用数字化工作方法,实现对平台营销响应概率预测与风险预测
可掌握的核心能力
1、掌握数字化工作方法
2、掌握运筹优化方法,包含线性规划与二次优化、基于业务流程的优化
3、掌握数字化运营综合案例-某机构营销响应概率预测与风险预测案例
主要内容
・ETL 基本概念与常用工具 ・Kettle 核心概念与配置 ・数据接入策略与调度 ・Kettle 转换 ・Kettle 作业 ・Kettle 连接数仓 ・ETL 实战项目
可解决的现实问题
掌握ETL基本概念与常用工具,学会 ETL 连接数仓,实操ETL实战项目
可掌握的核心能力
1、掌握 ETL 基本概念与常用工具
2、掌握 Kettle 核心概念、转换
3、掌握 ETL 连接数仓,实操 ETL 实战项目
主要内容
・分布式存储 ・PySpark 分布式计算 ・Spark 与 Flink 工作原理 ・Spark 基本语法
可解决的现实问题
学习分布式存储与计算方法,使用PySpark实现分布式计算
可掌握的核心能力
1、掌握分布式存储与计算
2、掌握 Spark 与 Flink 工作原理
3、掌握 Spark 基本语法
4、掌握使用 PySpark 实现分布式计算
主要内容
・决策树 ・信息熵 ・ ID3决策树 ・C4.5决策树 ・CART树 ・模型调参
・实操案例: ・病马死亡归类与识别案例 ・用户分类-保险行业用户分类分析
可解决的现实问题
使用决策树相关知识,解决行业内用户分类问题
可掌握的核心能力
1、掌握决策树与信息熵
2、掌握 ID3, C4.5, CART 树
3、掌握 模型调参:网格搜索
4、掌握案例:病马死亡归类与识别案例
5、掌握案例:用户分类-保险行业用户分类分析
主要内容
・数据挖掘导论 ・KNN ・朴素贝叶斯 ・Pipeline 工作流 ・使用 Pipeline 提交算法模型
可解决的现实问题
学习数据挖掘导论,掌握KNN 算法,学会使用 Pipeline 提交算法模型
可掌握的核心能力
1、掌握数据挖掘导论
2、掌握 KNN 邻近算法
3、掌握朴素贝叶斯法
4、掌握 Pipeline 工作流
5、使用 Pipeline 提交算法模型
主要内容
・带正则项的回归分析 ・SVM ・MLOps 基本概念 ・MLFlow 实战 MLOps
・大数据环境下的回归分析实现
可解决的现实问题
学习带正则项的回归分析,完成大数据环境下的回归分析实现
可掌握的核心能力
1、掌握带正则项的回归分析
2、掌握大数据环境下的回归分析实现(用 Spark 实现)
3、掌握 SVM 支持向量机
4、掌握 MLOps 基本概念
5、掌握 MLFlow 实战 MLOps
主要内容
・关联规则 ・评估指标 ・Apriori 算法 ・ 协同过滤 ・大数据环境下的协同过滤实现
・实操案例:产品组合策略-电信公司产品捆绑销售策略分析案例
可解决的现实问题
学习关联规则与协同过滤,实现产品组合策略分析
可掌握的核心能力
1、掌握关联规则,包含关联规则的概念、评估指标、Apriori 算法等
2、掌握协同过滤
3、掌握大数据环境下的协同过滤实现
4、掌握产品组合策略案例-电信公司产品捆绑销售策略分析案例
主要内容
・集成学习理论基础 ・AdaBoost ・随机森林及其 Spark 实现 ・ GBDT ・XGBoost
・LightGBM ・CatBoost ・NGBoost
可解决的现实问题
掌握集成学习理论基础机器提升方法
可掌握的核心能力
1、掌握集成学习的理论基础
2、掌握 AdaBoost
3、掌握随机森林及其 Spark 实现
4、掌握 GBDT, XGBoost
5、掌握 LightGBM, CatBoost, NGBoost
主要内容
・ 数据不平衡问题 ・特征的构造与学习 ・模型可解释性专题(SHAP 和 LIME)
・ 感知器 ・多层感知器
可解决的现实问题
掌握特征工程进阶知识,掌握感知器及多层感知器
可掌握的核心能力
1、掌握掌握数据不平衡问题相关知识
2、掌握特征工程进阶:特征的构造与学习
3、掌握模型可解释性专题(SHAP 和 LIME)
4、掌握感知器及多层感知器
主要内容
・ 深度神经网络基础 ・BP 神经网络架构 ・反向传播算法 ・ 梯度与学习率专题
・ 图像分析-手写数字自动识别
可解决的现实问题
掌握深度学习基础,学会图像分析-手写数字自动识别
可掌握的核心能力
1、掌握深度神经网络基础
2、掌握 BP 神经网络架构
3、掌握反向传播算法
4、掌握梯度与学习率专题
5、掌握图像分析-手写数字自动识别
自2013年起,每年不定期更新
新增数据挖掘课程,涵盖统计建模+机器学习
新增ETL内容
新增增加评分卡和反欺诈实战案例
新增选修课增加SPSS内容
更新Python基础增加一天时长
新增ETL大量内容.
新增Pipeline.工作流内容,此内容为CDA独家
新增ML_Ops内容,此内容为CDA独家
新增模型可解释性专题,此内容为CDA独家
新增CatBoost, NGBoost, 后者是现在的前沿算法
新增选修课增加SPSS内容
更新所有课程的选修课统一设置为5门课,全部免费
更新预习课程里去掉统计学,统计学已完全改为面授
更新课表文字描述做了大大优化
更新集成学习中增加随机森林的Spark实现
更新选修课统一设置为5门课,全部免费
新增增加预训练与 Bert 的内容,框架更换为 PyTorch
更新选修课统一设置为 5 门课,全部免费
更新Level III 深度学习改为"深度学习与 NLP 前沿技术“
新增增加 AB test 内容
新增在正则回归和协同过滤的课程中增加 Spark 的模型实现费
新增NLP 课程中增加 Attention、Transformer、Bert 内容
更新深度学习课程中去掉径向基网络,改为残差网络
更新授课顺序调整
新增推断性统计
新增AB test 内容
更新原数据产品设计课程更换为精准营销全流程
更新授课顺序调整
新增数据治理
新增企业架构与数据架构基础
新增商业策略分析
新增数字化最优化工作方法
新增CDA 数据分析师 App 上线
新增大数据隐私、安全及立法
新增区块链分析
新增项目管理
新增案例:深度学习在影像物体辨识上的应用
新增案例:深度学习在手写数字辨识上的应用
新增大数据存储与计算
新增集群资源管理与调优
新增基于Tensorflow、Keras、Scikit-Learn、TFLearn的机器学习算法
新增感知机与神经网络
新增课程每一个阶段都有相关的作业练习与项目案例
新增学员分组合作
更新毕业答辩涉及大型商业项目
新增好学 AI
新增Mahout
新增Hbase
更新机器学习
新增语音分析
新增财务数据分析
新增Hive 工具操作
新增Power BI 数据可视化分析
更新大数据实验室在线编程环境 v2.0,实验室涵盖 SQL、Spark、R 语言、Python 等语言操作工具
新增数学基础
新增关系型数据库
新增非关系型数据库
新增机器学习
新增深度学习 TensorFlow
新增文本分析
新增图像识别
新增语音分析
新增对抗生成网络智能问答系统
新增CDA 数据分析师网校上线
新增大数据平台分析工具 Spark
新增可视化工具 Tableau 及报告撰写
新增Scala 开发
新增MapReduce工作原理
新增大数据实验室 v1.0
新增Hadoop 2.X 集群部署
新增大数据仓库 HiveQL
新增Pyspark 应用
新增Excel 数据处理技巧
新增Power BI
新增数理统计
新增Python 编程基础
新增Numpy 基础
新增Pandas 应用
新增Python 推荐系统
新增Tableau
新增数据预处理
新增Python 大数据工程师
新增课程包括 Excel、SQL、SPSS、 R 语言、SAS 等软件应用
新增统计基础、业务数据分析
新增R 数据可视化
CDA大数据实验室采用全球领先的英伟达A100-80G内存的GPU,在深度学习如BERT模型推理上相当于200多个CPU,对于具有 庞大数据表的超大型模型(例如深度学习推荐模型[DLRM]),A100-80G可提供高达2TB的统一显存。在AI和部分HPC应用主要使 用的张量运算中,提供每秒312万亿次的数据处理能力,结合CDA在人工智能和语音数据分析方面的技术研发,可以处理超大型模型和 数据集
数据科学学习路径设计:186个实验
数据科学教学视频:53门课程,1000+小时视频课程
数据中心强大数据集:8大分类,200多个脱敏数据集
兼容主流数据分析工具:python、spark、R、SQL
智能推荐学习方案,实现因材施教
无需搭建编程环境,直接上手练习
不同科目海量题库,反复巩固知识
垂直数据问答社区,真人老师应答
SCRM 系统让数据价值更精准
机器人外呼系统让销售回访更便捷
智能营销系统让客户成交更轻松
在招聘市场上,越来越多的企业要求持CDA数据分析师®证书
人人皆需的职场数据思维与通用数据技能
• 零基础就业转行者、应届毕业生
• 产品、运营、营销等业务岗与研发、技术岗在职者
• 企业创始人、经理人、管理咨询类岗位从业者
考试大纲 >>考试报名 >>企业数字化发展中必备的数据分析流程与技能
• 产品、运营等业务部门与研发、中台、技术类部门数据分析相关岗位在职者
• 数字化转型企业创始人与数字化流程中相关负责人
考试大纲 >>考试报名 >>企业数字化发展中必备的高级数据分析方法与技术
• 业务岗与技术岗从事数据分析、数据挖掘、机器学习等技术在职提升者
• 从事算法科学、深度学习等工作的科研人员、分析师与工程师等
考试大纲 >>考试报名 >>CDA认证LEVEL I对于考生的学历、专业、技能等没有限制性报考条件,在与全球计算机化考试服务商 Pearson VUE达成深度合作后LEVEL I更是随报随考机制。 查看CDA认证报考流程 >>