京公网安备 11010802034615号
经营许可证编号:京B2-20210330
CDA Level Ⅱ:建模分析师。两年以上数据分析岗位工作经验,或通过CDA Level Ⅰ认证半年以上。在政府、金融、电信、零售、互联网、电商、医学等行业专门从事数据分析与数据挖掘的人员。在Level Ⅰ的基础之上深入掌握高级多元统计方法,并且拓展时间序列分析和主要数据挖掘的理论知识与业界运用;能够熟练使用SAS、R、Matlab和SPSS中至少一个专业统计软件实现相关算法;熟悉使用SQL访问企业级数据库;具有按照数据挖掘标准流程进行项目需求分析、数据验证、建模与模型评估的能力。
|
级别 |
Level II |
|
理论 |
统计学、概率论和数理统计、多元统计分析、时间序列、数据挖掘(DM) |
|
软件 |
必要:EXCEL、SQL、SAS/SPSS 可选:Python、R、MATLAB;SQL等(/表示“或”) |
|
分析方法要求 |
除掌握基本数据处理及分析方法以外,还应掌握高级数据分析及数据挖掘方法(多元线性回归法,生存分析法,神经网络,决策树,判别分析法,主成分分析法,因子分析法,典型相关分析,聚类分析法,关联规则,支持向量机,bagging,boosting等)和可视化技术。 |
|
业务分析能力 |
至少在客户关系管理、管理会计、信用风险管理、人力资源管理等其中一个数据分析的常用领域内具有深入的业务经验,可以将业务目标转化为数据分析目标;熟悉企业内数据的生成过程,可以熟练的访问常见数据库;根据项目需求,以最快捷的方式获取业界最新案例和学界最新研究成果,并且转化为行动方针;可以熟练的提取所需信息,能够从海量数据中搜集并提取信息;根据项目目的,结合业务经验选取最优建模方法。 |
|
结果展现能力 |
报告体现数据挖掘的整体流程,层层阐述信息的收集、模型的构建、结果的验证和解读,对行业进行评估,优化和决策。 |
CDA Level Ⅱ培训课程大纲
详细大纲
|
时 程 |
大纲内容 |
|
第1天 |
主题:顾客关系管理及基础数据挖掘技术 |
|
企业使用之范围: 说明企业如何利用顾客关系管理来进行营销活动 |
|
|
理论介绍: 顾客关系管理系统的架构及其组成元素 企业如何利用顾客关系管理系统来进行营销活动 数据挖掘技术的功能分类 数据挖掘技术的绩效增益 数据挖掘技术的产业标准 数据挖掘基本观念与实际应用解说 |
|
|
SAS EM & SPSS Modeler实务案例操作: Introduction to SAS Enterprise Miner(SAS EM) & IBM SPSS Modeler Getting Started with SAS EM 12.1 & IBM SPSS Modeler 16 Creating a EM Project, Library and Diagram Creating a SPSS Modeler Project |
|
|
第1天 第2天 |
主题:基础数据挖掘技术 |
|
企业使用之范围: |
|
|
理论介绍: 数据挖掘技术的流程-SEMMA vs. CRISP DM 数据前处理(Data Preprocessing)技术 Attribute Selection(字段选择) *Data Integration(数据整合) Data Cleansing(数据清洗): *Wrong Value(错误值), *Outlier(离群值), *Missing Value(遗失值) Attribute Enrichment(字段扩充): *内/外部数据的扩充方法 Data Coding(数据编码): *Data Transformation(数据转换), *Data Reduction(数据精简), *Record Reduction(记录精简), *Attribute Value Reduction(域值精简), *Attribute Reduction(字段精简) |
|
|
SAS EM & SPSS Modeler实务案例操作: Defining a Data Source Exploring a Data Source * Exploring Source Data * Changing the Explore Window Sampling Defaults * Modifying and Correcting Source Data Managing Wrong Values/Outliers/Missing Values Transforming Inputs Recording Categorical Inputs |
|
|
第2天 第3天 |
主题:进阶数据挖掘技术 |
|
企业使用之范围: 说明企业如何利用关键变量发掘技术来发掘对项目目标有效之关键变量,以做为数据挖掘之输入变量 |
|
|
理论介绍: 训练数据与测试数据的产生方法 关键变量(Key Attributes)发掘技术 *卡方检定(Chi-square Test) *t检定及ANOVA检定(t Test & ANOVA Test) *利用决策树(Decision Tree)选择关键变量 |
|
|
SAS EM & SPSS Modeler实务案例操作: Creating Training & Validation Dataset Variable Selection Using Partial Least Squares for Input Selection Using the Decision Tree for Input Selection |
|
|
第3天 |
主题:进阶数据挖掘技术2 |
|
企业使用之范围: 说明如何利用分类技术之决策树来建立交叉销售(Cross-Selling)模型,以提升公司获利 |
|
|
理论介绍: 分类之决策树(Decision Tree) |
|
|
SAS EM & SPSS Modeler实务案例操作: Constructing a Decision Tree Model Optimizing the Complexity of Decision Trees Assessing a Decision Tree Understanding Additional Plots & Tables Automatic Tree Growth |
|
|
第3天 |
主题:进阶数据挖掘技术3 |
|
企业使用之范围: 说明企业如何利用分类技术之神经网络、支持向量机及分类多模型整合来建立信用评分(Credit Scoring)模型,以降低公司损失 |
|
|
理论介绍: 分类之神经网络(Neural Network) 分类之支持向量机(Support Vector Machine) 分类多模型整合(Ensemble)之装袋(Bagging)、增强(Boosting)学习 |
|
|
SAS EM &SPSS Modeler实务案例操作: Training a Neural Network Selecting Neural Network Inputs Increasing Network Flexibility Using the AutoNeural Tool Constructing a Support Vector Machine Constructing Ensemble Models by Using Bagging and Boosting Techniques Model Comparisons |
|
|
第4天 |
主题:进阶数据挖掘技术4 |
|
企业使用之范围: 说明企业如何利用模型评估技术来评估模型的优劣,以作为采用适当模型的准则 |
|
|
理论介绍: 模型评估(Model Assessment)技术 |
|
|
SAS EM & SPSS Modeler实务案例操作: Model Fit Statistics: * Comparing Models with Summary Statistics Statistical Graph: * Comparing Models with ROC Charts * Comparing Models with Score Rankings Plots * Adjusting for Separate Sampling Profit Matrix: * Evaluating Model Profit * Viewing Additional Assessments * Optimizing with Profit Internally Scored Data Sets: * Creating a Score Data Source * Scoring with the Score Tool * Exporting a Scored Table Score Code Modules: * Creating a SAS Score Code Module * Creating Other Score Code Modules |
|
|
第4天 |
主题:进阶数据挖掘技术5 |
|
企业使用之范围: 说明企业如何利用预测(Prediction)技术之回归树及类神经网络来建立数值预测模型-如预测客户之年收入,以利公司设计营销活动 |
|
|
理论介绍: 回归树(Regression Tree) |
|
|
SAS EM & SPSS Modeler实务案例操作: Review and Set the Decision Tree Node Review and Set the Neural Network Node |
|
|
第4天 |
主题:进阶数据挖掘技术6 |
|
企业使用之范围: 说明企业如何利用关联及序列分析技术来建立交叉销售(Cross-Selling)及提升销售(Up-Selling)模型,以提升公司获利 |
|
|
理论介绍: 关联分析(Association Analysis) 序列分析(Sequence Analysis) |
|
|
SAS EM & SPSS Modeler案例案例操作: Consolidating Categorical Inputs Market Basket Analysis Sequence Analysis |
|
|
第5天 |
环境搭建与数据转换
|
|
主体:数据分析环境搭建 1、Python程序安装 2、MySQL数据库安装、配置、建库;
|
|
|
主题:Python与其它软件之间数据转换 1、Python内部的数据存储类型 2、Python与CSV格式文件; 3、Python与EXCEL格式文件; 4、Python与MySQL; 5、Python与ODBC;
|
|
|
主题:用R作统计 两变量相关检验(两样本T检验、方差分析、卡方检验、相关检验); 主成分与因子分析; |
|
|
|
数据挖据完整流程案例 ——Python编程构造银行信用风险模型 |
|
第6天 |
主题:信用风险建模简介 银行信用风险监管体系与信用风险内部模型 主题:单变量检验与数据清洗 缺失值检验与处理方法 异常值检验与处理方法 解释变量粗筛 双变量关系检验法 数据分箱 |
|
主题:连续变量压缩技术 变量聚类 分类变量压缩技术 似完整分类数据问题 WOE方法 主题:逻辑回归建模技术 模型选择:逐步法、全子集法 根据经验Logit曲线进行连续变量转换 主题:编程模型评估技术 ROC曲线 K-S曲线 |
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
【核心关键词】主数据、资产、供应商、现金流、企业、精细化、集团、数字化、中国、数据质量、数据管理、经营管理、地产行业、 ...
2026-06-24在数据分析、假设检验、AB测试、学术研究等统计场景中,显著水平(α)与P值(P-value)是判断统计结果是否具有统计学意义的两个 ...
2026-06-24小李刚入职了一家互联网公司的运营部门。第一次参加业务复盘会,运营主管问了一个看似简单的问题:“这个月新用户留存率下降了5 ...
2026-06-24在数字化转型全面渗透的产业背景下,数据分析已成为互联网、金融、零售、制造等几乎所有行业的核心岗位能力。很多初学者对数据分 ...
2026-06-23在企业并购、股权定价、投融资评估、资产核算等资本市场核心场景中,市场法是应用最广泛、市场认可度最高的企业价值评估方法。传 ...
2026-06-23 许多数据分析师精通Excel函数和SQL查询,但当面对一张上万行的销售明细表,要快速回答“哪个地区销量最高”“哪款产品增长最 ...
2026-06-23【核心关键词】运营、证书、金融、客户、产品、软件、销售额、量化、科技、数据分析、金融行业、证券类软件、业务流程、金融机 ...
2026-06-22在企业方案选型、产品迭代评审、供应商筛选、运营效果复盘等决策场景中,单一指标的优劣判断往往无法支撑科学决策。一套转化效果 ...
2026-06-22 很多数据分析师掌握了Excel函数、会写SQL查询,但当被问到“数据从哪里来”“数据加工有哪些步骤”“如何使用分析工具连接数 ...
2026-06-22【核心关键词】软件、洞察力、大数据、产品、经验、硬件、流量、创新、决策、数据安全、网络安全、数据分析、决策制定、数据挖 ...
2026-06-18在方案选型、效果复盘、产品评估、供应商筛选等各类业务决策场景中,仅凭单一指标下结论往往会陷入 “以偏概全” 的误区。多维度 ...
2026-06-18 很多数据分析师精通Excel单元格操作,但当被问到“表结构数据的基本处理单位是什么”“字段和记录的本质区别”“为什么表结 ...
2026-06-18在数据分析、用户运营与业务增长的工作体系中,漏斗拆解是最基础也最高频的问题定位方法。很多业务场景下,我们只能看到最终的转 ...
2026-06-17在数据库开发、数据清洗与报表统计场景中,数值类型转换为日期是高频刚需操作。业务系统常以 Unix 时间戳、整型日期(如20240617 ...
2026-06-17 数据分析师八成以上的时间在和数据表格打交道,但许多人拿到Excel后习惯性地先算、先分析,结果回头发现漏了一列关键数据, ...
2026-06-17【核心关键词】数据库、电商、知识、产品、数据产品、监管业务、产品经理、业务系统、用户行为分析、用户分析、数据分析、电商 ...
2026-06-16在 Python 动态类型与面向对象的编程体系中,变量定义与类实例化是构建代码逻辑的两大核心基石。变量是数据存储、传递与运算的基 ...
2026-06-16 很多数据分析师每天与Excel打交道,但当被问到“表格结构数据和表结构数据有什么区别”“数据类型误判会引发哪些分析错误” ...
2026-06-16在 MySQL 查询性能优化体系中,索引是降低查询耗时、提升数据库吞吐的核心手段。其中联合索引与覆盖索引是实际开发中最高频的两 ...
2026-06-15在数据仓库建设与商业智能分析体系中,维度建模是应用最广泛的建模方法论,而事实表与维度表是维度建模的两大核心构件,共同构成 ...
2026-06-15