京公网安备 11010802034615号
经营许可证编号:京B2-20210330
CDA考试教材 https://www.cdaglobal.com/article/475.html
CDA模拟题库 https://www.cdaglobal.com/article/473.html
76.下表是一个购物篮,假定支持度阈值为40%,其中__(A D)__是频繁闭项集。
TID 项
1 abc
2 abcd
3 bce
4 acde
5 de
A、abc
B、ad
C、cd
D、de
77.Apriori算法的计算复杂度受__(ABCD)__影响。
A、支持度阀值
B、项数(维度)
C、事务数
D、事务平均宽度
78. 我们可以用哪种方式来避免决策树过度拟合 (Overfitting)的问题? (AB)
A、利用修剪法来限制树的深度
B、利用盆栽法规定每个节点下的最小的记录数目
C、利用逐步回归法来删除部分数据
D、目前并无适合的方法来处理这问题
79.以下属于分类器评价或比较尺度的有: (ACD)
A、预测准确度
B、召回率
C、模型描述的简洁度
D、计算复杂度
80.在评价不平衡类问题分类的度量方法有如下几种:(ABCD)
A、F1度量
B、召回率(recall)
C、精度(precision)
D、真正率(ture positive rate,TPR)
81.贝叶斯信念网络(BBN)有如下哪些特点:(AB)
A、构造网络费时费力
B、对模型的过分问题非常鲁棒
C、贝叶斯网络不适合处理不完整的数据
D、网络结构确定后,添加变量相当麻烦
82.如下哪些不是最近邻分类器的特点: (C)
A、它使用具体的训练实例进行预测,不必维护源自数据的模型
B、分类一个测试样例开销很大
C、最近邻分类器基于全局信息进行预测
D、可以生产任意形状的决策边界
83.如下那些不是基于规则分类器的特点:(AC)
A、规则集的表达能力远不如决策树好
B、基于规则的分类器都对属性空间进行直线划分,并将类指派到每个划分
C、无法被用来产生更易于解释的描述性模型
D、非常适合处理类分布不平衡的数据集
84.以下属于聚类算法的是( ABD )。
A、K均值
B、DBSCAN
C、Apriori
D、Jarvis-Patrick(JP)
85.( CD )都属于簇有效性的监督度量。
A、轮廓系数
B、共性分类相关系数
C、熵
D、F度量
86. 下列对ID3算法的描述,何者为真?(A, B, D)
A、每个节点的分支度都不相同
B、使用Information Gain作为节点分割的依据
C、可以处理数值型态的字段
D、无法处理空值的字段
87.( ABCD )这些数据特性都是对聚类分析具有很强影响的。
A、高维性
B、规模
C、稀疏性
D、噪声和离群点
88.在聚类分析当中,( AD )等技术可以处理任意形状的簇。
A、MIN(单链)
B、MAX(全链)
C、组平均
D、Chameleon
89.( AB )都属于分裂的层次聚类算法。
A、二分K均值
B、MST
C、Chameleon
D、组平均
90.下列哪种算法可同时用来做分类以及预测数值?(A, B)
A、Neural Network
B、Decision Tree
C、Logistic Regression
D、Linear Regression
三、内容相关题
(一)、根据相同的背景材料回答若干道题目,每道题的答案个数不固定。下列各题A)、B)、C)、D)四个选项中,每题至少有一个选项是正确的,多选或少选,均不能得分。
I、下图为类神经元的示意图,请回答1至3题:
1、【答案(A)】
请问虚线的部分为?
A、类神经元
B、 键结值(Weight)
C、阀值(Bias)
D、激发函数(Activation Function)
2、【答案(D)】
请问请问( )为?
A、类神经元
B、键结值(Weight)
C、阀值(Bias)
D、激发函数(Activation Function)
3、【答案(B)】
请问W1, W2, …, Wm为?
A、类神经元
B、键结值(Weight)
C、阀值(Bias)
D、激发函数(Activation Function)
II、根据下表的混乱矩阵(Confusion Matrix),回答4至5题:
4、【答案(A)】
对于属性值YES的响应率(Precision)应如何计算?
A. B. C. D.
5、【答案(B)】
对于属性值YES的捕捉率(Recall)应如何计算?
A. B. C. D.
(二)、6-10题略
四、案例操作题
带数据,数据请见***
(一)、根据相同的背景材料和数据回答若干道题目,每道题的答案个数不固定。在做题过程中需要使用统计软件进行相应的操作。提供SAS、SPSS和CSV三种格式的数据,统计软件不受限制。下列各题A)、B)、C)、D)四个选项中,每题至少有一个选项是正确的,多选或少选,均不能得分。
I、一家银行希望使用自有业务数据和外部征信局数据来构造信用评分模型。该数据保存在Credit这张表中。其变量描述如下:
分析过程需要使用软件进行,可以使用任何软件完成以下题目:
1、 (AB)
以下哪个变量是分类变量
A. TARGET
B. BanruptcyInd
C. InqFinanceCnt24
D. TLBadDerogCnt
2、 (B)
这些变量中,有多少个变量具有缺失值
A. 7
B. 11
C. 12
D. 27
3、(B)
InqCnt06的中位数是
A.0
B.2
C.40
D.3.11
4、(AC)
以下四个变量中,哪两个右偏严重
A. TLCnt24
B. TlOpenPct
C. TLSatCnt
D. TLSatPct
5、(B)
将数据按7:3的比例分为训练集和验证集,对有缺失值的变量使用中位数进行填补后,使用逐步回归法以Target为被解释变量构造逻辑回归,以下哪些变量的解释力度最强
A.TLBadCnt24
B.TLBalHCPct
C.TLCnt03
D.TLDel60Cnt24
6-10略
(二)、11-20题略
立刻扫码
看更多数据分析师认证试题
——学数据分析技能一定要了解的大厂入门券,CDA数据分析师认证证书!
CDA(数据分析师认证),与CFA相似,由国际范围内数据科学领域行业专家、学者及知名企业共同制定并修订更新,迅速发展成行业内长期而稳定的全球大数据及数据分析人才标准,具有专业化、科学化、国际化、系统化等特性。
同时,CDA全栈考试布局和认证体系已得到教育部直属中国成人教育协会及大数据专业委员会认可,并由为IBM、华为等提供全球认证服务的Pearson VUE面向全球提供灵活的考试服务。
报名方式
登录CDA认证考试官网注册报名>>点击报名
报名费用
Level Ⅰ:1200 RMB
Level Ⅱ:1700 RMB
Level Ⅲ:2000 RMB
考试地点
Level Ⅰ + Ⅱ:中国区30+省市,70+城市,250+考场,考生可就近考场预约考试 >看看我所在的地哪里报名<
Level Ⅲ:中国区30所城市,北京/上海/天津/重庆/成都/深圳/广州/济南/南京/杭州/苏州/福州/太原/武汉/长沙/西安/贵阳/郑州/南宁/昆明/乌鲁木齐/沈阳/哈尔滨/合肥/石家庄/呼和浩特/南昌/长春/大连/兰州>看看我所在的地哪里报名<
报考条件
CDA Level I >了解更多<
▷ 报考条件:无要求。
▷ 考试时间:随报随考。
CDA Level II >了解更多<
▷ 报考条件:获得CDA Level Ⅰ认证证书;
▷ 考试时间:随报随考。
CDA Level III >了解更多<
▷ 报考条件:获得CDA Level Ⅱ认证证书;
▷ 考试时间:
一年四届 3月、6月、9月、12月的最后一个周六。
(备注:数据分析相关工作不限行业,可涉及统计,数据分析,数据挖掘,数据库,数据管理,大数据架构等内容。)
——热门课程推荐:
想学习PYTHON数据分析与金融数字化转型精英训练营,您可以点击>>>“人才转型”了解课程详情;
想从事业务型数据分析师,您可以点击>>>“数据分析师”了解课程详情;
想从事大数据分析师,您可以点击>>>“大数据就业”了解课程详情;
想成为人工智能工程师,您可以点击>>>“人工智能就业”了解课程详情;
想了解Python数据分析,您可以点击>>>“Python数据分析师”了解课程详情;
想咨询互联网运营,你可以点击>>>“互联网运营就业班”了解课程详情;
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在互联网产品运营、用户增长的实战场景中,很多从业者都会陷入一个误区:盲目投入资源做推广、拉新,却忽视了“拉新后的用户激活 ...
2026-02-06在机器学习建模过程中,特征选择是决定模型性能的关键环节——面对动辄几十、上百个特征的数据(如用户画像的几十项维度、企业经 ...
2026-02-06在CDA(Certified Data Analyst)数据分析师的日常实操中,表格结构数据是贯穿全流程的核心载体,而对表格数据类型的精准识别、 ...
2026-02-06在日常办公数据分析中,我们经常会面对杂乱无章的批量数据——比如员工月度绩效、产品销售数据、客户消费金额、月度运营指标等。 ...
2026-02-05在分类模型(如风控反欺诈、医疗疾病诊断、客户流失预警)的实操落地中,ROC曲线是评估模型区分能力的核心工具,而阈值则是连接 ...
2026-02-05对CDA(Certified Data Analyst)数据分析师而言,数据分析的价值不仅在于挖掘数据背后的规律与洞察,更在于通过专业的报告呈现 ...
2026-02-05在数据分析实战中,我们经常会遇到“多指标冗余”的问题——比如分析企业经营状况时,需同时关注营收、利润、负债率、周转率等十 ...
2026-02-04在数据分析场景中,基准比是衡量指标表现、评估业务成效、对比个体/群体差异的核心工具,广泛应用于绩效评估、业务监控、竞品对 ...
2026-02-04业务数据分析是企业日常运营的核心支撑,其核心价值在于将零散的业务数据转化为可落地的业务洞察,破解运营痛点、优化业务流程、 ...
2026-02-04在信贷业务中,违约率是衡量信贷资产质量、把控信用风险、制定风控策略的核心指标,其统计分布特征直接决定了风险定价的合理性、 ...
2026-02-03在数字化业务迭代中,AB测试已成为验证产品优化、策略调整、运营活动效果的核心工具。但多数业务场景中,单纯的“AB组差异对比” ...
2026-02-03企业战略决策的科学性,决定了其长远发展的格局与竞争力。战略分析方法作为一套系统化、专业化的思维工具,为企业研判行业趋势、 ...
2026-02-03在统计调查与数据分析中,抽样方法分为简单随机抽样与复杂抽样两大类。简单随机抽样因样本均匀、计算简便,是基础的抽样方式,但 ...
2026-02-02在数据驱动企业发展的今天,“数据分析”已成为企业经营决策的核心支撑,但实践中,战略数据分析与业务数据分析两个概念常被混淆 ...
2026-02-02在数据驱动企业发展的今天,“数据分析”已成为企业经营决策的核心支撑,但实践中,战略数据分析与业务数据分析两个概念常被混淆 ...
2026-02-02B+树作为数据库索引的核心数据结构,其高效的查询、插入、删除性能,离不开节点间指针的合理设计。在日常学习和数据库开发中,很 ...
2026-01-30在数据库开发中,UUID(通用唯一识别码)是生成唯一主键、唯一标识的常用方式,其标准格式包含4个短横线(如550e8400-e29b-41d4- ...
2026-01-30商业数据分析的价值落地,离不开标准化、系统化的总体流程作为支撑;而CDA(Certified Data Analyst)数据分析师,作为经过系统 ...
2026-01-30在数据分析、质量控制、科研实验等场景中,数据波动性(离散程度)的精准衡量是判断数据可靠性、稳定性的核心环节。标准差(Stan ...
2026-01-29在数据分析、质量检测、科研实验等领域,判断数据间是否存在本质差异是核心需求,而t检验、F检验是实现这一目标的经典统计方法。 ...
2026-01-29