京公网安备 11010802034615号
经营许可证编号:京B2-20210330
《数据分析专项练习题库》
《CDA数据分析认证考试模拟题库》
《企业数据分析面试题库》
CDA LEVEL Ⅱ_模拟题:
1、答案(D)
在使用历史数据构造训练集(Train)集、验证(Validation)集和检验(Test)时,以下哪个样本量分配方案比较适合?
A.训练50%,验证0%,检验50%
B.训练100%,验证0%,检验0%
C.训练0%,验证100%,检验0%
D.训练60%,验证30%,检验10%
2、答案(A)
一个累积提升度曲线,当深度(Depth)等于0.1时,提升度为(Lift)为3.14,以下哪个解释正确?
A.根据模型预测,从最高概率到最低概率排序后,最高的前10%中发生事件的数量比随机抽样的响应率高3.14
B.选预测响应概率大于10%的样本,其发生事件的数量比随机抽样的响应率高3.14
C.根据模型预测,从最高概率到最低概率排序后,最高的前10%中预测的精确度比随机抽样高3.14
D.选预测响应概率大于10%的样本,其预测的精确度比随机抽样高3.14
3、答案(C)
在使用历史数据构造训练(Train)集、验证(Validation)集和检验(Test)集时,训练数据集的作用在于
A.用于对模型的效果进行无偏的评估
B.用于比较不同模型的预测准确度
C.用于构造预测模型
D.用于选择模型
4、答案(D)
在对历史数据集进行分区之前进行数据清洗(缺失值填补等)的缺点是什么?
A.增加了填补缺失值的时间
B.加大了处理的难度
D.无法对不同数据清理的方法进行比较,以选择最优方法
5、答案(C)
A.运用验证数据集中变量的统计量对训练集中的变量进行数据清洗
B. 运用验证数据集中变量的统计量对验证集中的变量进行数据清洗
C. 运用训练数据集中变量的统计量对验证集中的变量进行数据清洗
D.以上均不对
6、答案(B)
当一个连续变量的缺失值占比在85%左右时,以下哪种方式最合理
A.直接使用该变量,不填补缺失值
B.根据是否缺失,生成指示变量,仅使用指示变量作为解释变量
C.使用多重查补的方法进行缺失值填补
D.使用中位数进行缺失值填补
7、答案(B)
构造二分类模型时,在变量粗筛阶段,以下哪个方法最适合对分类变量进行粗筛
A.相关系数
B.卡方检验
C.方差分析
D.T检验
8、答案(A)
以下哪个方法可以剔除多变量情况下的离群观测
A.变量中心标准化后的快速聚类法
B.变量取百分位秩之后的快速聚类法
C.变量取最大最小秩化后的快速聚类法
D.变量取Turkey转换后的快速聚类法
9、答案(C)
以下哪种变量筛选方法需要同时设置进出模型的变量显著度阀值
A .向前逐步法
B. 向后逐步法
C. 逐步法
D. 全子集法
10、答案(A)
A.R方
B.调整R方
C.AIC
D.BIC
11、[答案B.]
将复杂的地址简化成北、中、南、东四区,是在进行?
A. 数据正规化(Normalization) B. 数据一般化(Generalization) C. 数据离散化(Discretization) D. 数据整合(Integration)
12、【答案(A)】
当类神经网络无隐藏层,输出层个数只有一个的时候,倒传递神经网络会变形成为?
A. 罗吉斯回归 B. 线性回归 C. 贝氏网络 D. 时间序列
13、[答案B.]
请问Apriori算法是用何者做项目集(Itemset)的筛选 ?
A. 最小信赖度(Minimum Confidence)
B. 最小支持度(Minimum Support)
C. 交易编号(Transaction ID)
D. 购买数量
14、[答案B.]
有一条关联规则为A → B,此规则的信心水平(confidence)为60%,则代表:
A. 买B商品的顾客中,有60%的顾客会同时购买A
B. 买A商品的顾客中,有60%的顾客会同时购买B
C. 同时购买A,B两商品的顾客,占所有顾客的60%
D. 两商品A,B在交易数据库中同时被购买的机率为60%
15、【答案(B)】
下表为一交易数据库,请问A → C 的支持度(Support)为:
A. 75% B. 50% C.100% D. 66.6%
|
TID |
Items Bought |
|
1 |
A,B,C |
|
2 |
A,C |
|
3 |
A,D |
|
4 |
B,E,F |
16、【答案(D)】
下表为一交易数据库,请问A → C 的信赖度(Confidence)为:
A. 75% B. 50% C.100% D. 66.6%
|
TID |
Items Bought |
|
1 |
A,B,C |
|
2 |
A,C |
|
3 |
A,D |
|
4 |
B,E,F |
17、[答案D.]
倒传递类神经网络的训练顺序为何?( A:调整权重; B:计算误差值; C:利用随机的权重产生输出的结果)
A. BCA B. CAB C. BAC D. CBA
18、[答案C.]
在类神经网络中计算误差值的目的为何?
A. 调整隐藏层个数
B. 调整输入值
C. 调整权重(Weight)
D. 调整真实值
19、[答案A.]
以下何者为Apriori算法所探勘出来的结果?
A. 买计算机同时会购买相关软件
B. 买打印机后过一个月会买墨水夹
C. 买计算机所获得的利益
D. 以上皆非
20、[答案D.]
如何利用「体重」以简单贝式分类(Naive Bayes)预测「性别」?
A. 选取另一条件属性
B. 无法预测
C. 将体重正规化为0~1之间
D. 将体重离散化
21、[答案B.]
Naive Bayes是属于数据挖掘中的什么方法?
A. 分群 B. 分类 C. 时间序列 D. 关联规则
22、[答案B.]
简单贝式分类(Naive Bayes)可以用来预测何种数据型态?
A. 数值 B. 类别 C. 时间 D. 以上皆是
23、[答案B.]
如何以类神经网络仿真罗吉斯回归(Logistic Regression)?
A. 输入层节点个数设定为3
B. 隐藏层节点个数设定为0
C. 输出层节点个数设定为3
D. 隐藏层节点个数设定为1
24、[答案B.]
请问以下何者属于时间序列的问题?
A. 信用卡发卡银行侦测潜在的卡奴
B. 基金经理人针对个股做出未来价格预测
C. 电信公司将人户区分为数个群体
D. 以上皆是
25、[答案D.]
小王是一个股市投资人,手上持有某公司股票,且已知该股过去历史数据如下表所示,今天为预测2/6的股价而计算该股3日移动平均,请问最近的3日移动平均值为多少?
|
日期 |
股价 |
|
2/1 |
10 |
|
2/2 |
12 |
|
2/3 |
13 |
|
2/4 |
16 |
|
2/5 |
19 |
A. 11 B. 13 C. 14 D. 16
26、[答案C.]
下列哪种分类算法的训练结果最难以被解释?
A. Naive Bayes
B. Logistic Regression
C. Neural Network
D. Decision Tree
27、[答案B.]
数据遗缺(Null Value)处理方法可分为人工填补法及自动填补法,下列哪种自动填补法可得到较准确的结果?
A. 填入一个通用的常数值,例如填入"未知/Unknown"
B. 把填遗缺值的问题当作是分类或预测的问题
C. 填入该属性的整体平均值
D. 填入该属性的整体中位数
1、(AB)
对于决策类模型、以下哪些统计量用于评价最合适?
A.错分类率
B.利润
C.ROC指标
D.SBC
2、(BD)
对于估计类模型、以下哪些统计量用于评价最合适?
A.错分类率
B.极大似然数
C.ROC统计量
D.SBC
3、(AB)
以下哪个变量转换不会改变变量原有的分布形式
A.中心标准化
B.极差标准化
C.TURKEY打分
D.百分位秩
4、(AB)
连续变量转换时,选取百分位秩而不选用最大最小秩的原因
A.避免模型在使用时,值域发生明显变化
B.避免输入变量值域变化对模型预测效果的影响
C.避免输入变量的异常值影响
D.是转换后的变量更接近正态分布
5、(BC)
构造二分类模型时,在变量粗筛阶段,以下哪两个方法最适合对连续变量进行粗筛
A.皮尔森(Pearson)相关系数
立刻扫码
看更多数据分析师认证试题
——学数据分析技能一定要了解的大厂入门券,CDA数据分析师认证证书!
CDA(数据分析师认证),与CFA相似,由国际范围内数据科学领域行业专家、学者及知名企业共同制定并修订更新,迅速发展成行业内长期而稳定的全球大数据及数据分析人才标准,具有专业化、科学化、国际化、系统化等特性。
同时,CDA全栈考试布局和认证体系已得到社会认可,并由为IBM、华为等提供全球认证服务的Pearson VUE面向全球提供灵活的考试服务。
报名方式
登录CDA认证考试官网注册报名>>点击报名
报名费用
Level Ⅰ:1200 RMB
Level Ⅱ:1700 RMB
Level Ⅲ:2000 RMB
考试地点
Level Ⅰ + Level Ⅱ:中国区30+省市,70+城市,250+考场,考生可就近考场预约考试 >看看我所在的地哪里报名<
Level Ⅲ:中国区30所城市,北京/上海/天津/重庆/成都/深圳/广州/济南/南京/杭州/苏州/福州/太原/武汉/长沙/西安/贵阳/郑州/南宁/昆明/乌鲁木齐/沈阳/哈尔滨/合肥/石家庄/呼和浩特/南昌/长春/大连/兰州>看看我所在的地哪里报名<
报考条件
CDA Level I >了解更多<
▷ 报考条件:无要求。
▷ 考试时间:随报随考。
CDA Level II >了解更多<
▷ 报考条件:获得CDA Level Ⅰ认证证书;
▷ 考试时间:随报随考。
CDA Level III >了解更多<
▷ 报考条件:获得CDA Level Ⅱ认证证书;
▷ 考试时间:一年四届 3月、6月、9月、12月的最后一个周六。
(备注:数据分析相关工作不限行业,可涉及统计,数据分析,数据挖掘,数据库,数据管理,大数据架构等内容。)
——热门课程推荐:
想学习PYTHON数据分析与金融数字化转型精英训练营,您可以点击>>>“人才转型”了解课程详情;
想从事业务型数据分析师,您可以点击>>>“数据分析师”了解课程详情;
想从事大数据分析师,您可以点击>>>“大数据就业”了解课程详情;
想成为人工智能工程师,您可以点击>>>“人工智能就业”了解课程详情;
想了解Python数据分析,您可以点击>>>“Python数据分析师”了解课程详情;
想咨询互联网运营,你可以点击>>>“互联网运营就业班”了解课程详情;
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在大数据技术飞速迭代、数字营销竞争日趋激烈的今天,“精准触达、高效转化、成本可控”已成为企业营销的核心诉求。传统广告投放 ...
2026-04-24在游戏行业竞争白热化的当下,用户流失已成为制约游戏生命周期、影响营收增长的核心痛点。据行业报告显示,2024年移动游戏平均次 ...
2026-04-24 很多业务负责人开会常说“我们要数据驱动”,最后却变成“看哪张报表数据多就用哪个”,往往因为缺乏一套结构性的方法去搭建 ...
2026-04-24在Power BI数据可视化分析中,切片器是连接用户与数据的核心交互工具,其核心价值在于帮助使用者快速筛选目标数据、聚焦分析重点 ...
2026-04-23以数为据,以析促优——数据分析结果指导临床技术改进的实践路径 临床技术是医疗服务的核心载体,其水平直接决定患者诊疗效果、 ...
2026-04-23很多数据分析师每天盯着GMV、DAU、转化率,但当被问到“哪些指标是所有企业都需要的”“哪些指标是因行业而异的”“北极星指标和 ...
2026-04-23近日,由 CDA 数据科学研究院重磅发布的《2026 全球数智化人才指数报告》,被中国教育科学研究院官方账号正式收录, ...
2026-04-22在数字化时代,客户每一次点击、浏览、下单、咨询等行为,都在传递其潜在需求与决策倾向——这些按时间顺序串联的行为轨迹,构成 ...
2026-04-22数据是数据分析、建模与业务决策的核心基石,而“数据清洗”作为数据预处理的核心环节,是打通数据从“原始杂乱”到“干净可用” ...
2026-04-22 很多数据分析师每天盯着GMV、转化率、DAU等数字看,但当被问到“什么是指标”“指标和维度有什么区别”“如何搭建一套完整的 ...
2026-04-22在数据分析与业务决策中,数据并非静止不变的数值,而是始终处于动态波动之中——股市收盘价的每日涨跌、企业月度销售额的起伏、 ...
2026-04-21在数据分析领域,当研究涉及多个自变量与多个因变量之间的复杂关联时,多变量一般线性分析(Multivariate General Linear Analys ...
2026-04-21很多数据分析师精通描述性统计,能熟练计算均值、中位数、标准差,但当被问到“用500个样本如何推断10万用户的真实满意度”“这 ...
2026-04-21在数据处理与分析的全流程中,日期数据是贯穿业务场景的核心维度之一——无论是业务报表统计、用户行为追踪,还是风控规则落地、 ...
2026-04-20在机器学习建模全流程中,特征工程是连接原始数据与模型效果的关键环节,而特征重要性分析则是特征工程的“灵魂”——它不仅能帮 ...
2026-04-20很多数据分析师沉迷于复杂的机器学习算法,却忽略了数据分析最基础也最核心的能力——描述性统计。事实上,80%的商业分析问题, ...
2026-04-20在数字化时代,数据已成为企业决策的核心驱动力,数据分析与数据挖掘作为解锁数据价值的关键手段,广泛应用于互联网、金融、医疗 ...
2026-04-17在数据处理、后端开发、报表生成与自动化脚本中,将 SQL 查询结果转换为字符串是一项高频且实用的操作。无论是拼接多行数据为逗 ...
2026-04-17面对一份上万行的销售明细表,要快速回答“哪个地区卖得最好”“哪款产品增长最快”“不同客户类型的购买力如何”——这些看似复 ...
2026-04-17数据分析师一天的工作,80% 的时间围绕表格结构数据展开。从一张销售明细表到一份完整的分析报告,表格结构数据贯穿始终。但你真 ...
2026-04-16