CDA数据科学研究院 CDA考试中心 企业服务 关于CDA

cda

全国校区

您的位置:首页 > 大数据时代 > CDA题库-数据分析练习题3

CDA题库-数据分析练习题3

2020-11-03

《数据分析专项练习题库》
《CDA数据分析认证考试模拟题库》
《企业数据分析面试题库》



76.下表是一个购物篮,假定支持度阈值为40%,其中__(A D)__是频繁闭项集。

 

TID 项

1 abc

2 abcd

3 bce

4 acde

5 de

 

A、abc

B、ad

C、cd

D、de

 

77.Apriori算法的计算复杂度受__(ABCD)__影响。

A、支持度阀值

B、项数(维度)

C、事务数

D、事务平均宽度

 

78. 我们可以用哪种方式来避免决策树过度拟合 (Overfitting)的问题? (AB)

A、利用修剪法来限制树的深度

B、利用盆栽法规定每个节点下的最小的记录数目

C、利用逐步回归法来删除部分数据

D、目前并无适合的方法来处理这问题

 

79.以下属于分类器评价或比较尺度的有: (ACD)

A、预测准确度

B、召回率

C、模型描述的简洁度

D、计算复杂度

 

80.在评价不平衡类问题分类的度量方法有如下几种:(ABCD)

A、F1度量

B、召回率(recall)

C、精度(precision)

D、真正率(ture positive rate,TPR)

 

81.贝叶斯信念网络(BBN)有如下哪些特点:(AB)

A、构造网络费时费力

B、对模型的过分问题非常鲁棒

C、贝叶斯网络不适合处理不完整的数据

D、网络结构确定后,添加变量相当麻烦

 

82.如下哪些不是最近邻分类器的特点: (C)

A、它使用具体的训练实例进行预测,不必维护源自数据的模型

B、分类一个测试样例开销很大

C、最近邻分类器基于全局信息进行预测

D、可以生产任意形状的决策边界

 

83.如下那些不是基于规则分类器的特点:(AC)

A、规则集的表达能力远不如决策树

B、基于规则的分类器都对属性空间进行直线划分,并将类指派到每个划分

C、无法被用来产生更易于解释的描述性模型

D、非常适合处理类分布不平衡的数据集

 

84.以下属于聚类算法的是( ABD )。

A、K均值

B、DBSCAN

C、Apriori

D、Jarvis-Patrick(JP)

 

85.( CD )都属于簇有效性的监督度量。

A、轮廓系数

B、共性分类相关系数

C、熵

D、F度量

 

86. 下列对ID3算法的描述,何者为真?(A, B, D)

A、每个节点的分支度都不相同

B、使用Information Gain作为节点分割的依据

C、可以处理数值型态的字段

D、无法处理空值的字段

 

87.( ABCD )这些数据特性都是对聚类分析具有很强影响的。

A、高维性

B、规模

C、稀疏性

D、噪声和离群点

 

88.在聚类分析当中,( AD )等技术可以处理任意形状的簇。

A、MIN(单链)

B、MAX(全链)

C、组平均

D、Chameleon

 

89.( AB )都属于分裂的层次聚类算法。

A、二分K均值

B、MST

C、Chameleon

D、组平均

 

90.下列哪种算法可同时用来做分类以及预测数值?(A, B)

A、Neural Network

B、Decision Tree

C、Logistic Regression

D、Linear Regression

 

三、内容相关题

 

(一)、根据相同的背景材料回答若干道题目,每道题的答案个数不固定。下列各题A)、B)、C)、D)四个选项中,每题至少有一个选项是正确的,多选或少选,均不能得分。

I、下图为类神经元的示意图,请回答1至3题:

 

1、【答案(A)】

请问虚线的部分为?

A、类神经元 

B、 键结值(Weight) 

C、阀值(Bias) 

D、激发函数(Activation Function)

 

2、【答案(D)】

请问请问( )为?

A、类神经元 

B、键结值(Weight) 

C、阀值(Bias) 

D激发函数(Activation Function)

 

3、【答案(B)】

请问W1, W2, …, Wm为?

A类神经元 

B键结值(Weight) 

C阀值(Bias) 

D激发函数(Activation Function)

 

II、根据下表的混乱矩阵(Confusion Matrix),回答4至5题:

4、【答案(A)】

对于属性值YES的响应率(Precision)应如何计算? 

A.  B.   C.   D. 

 

5、【答案(B)】

对于属性值YES的捕捉率(Recall)应如何计算?

A.  B.   C.   D. 

 

(二)、6-10题略

 

四、案例操作题

 

带数据,数据请见***

 

(一)、根据相同的背景材料和数据回答若干道题目,每道题的答案个数不固定。在做题过程中需要使用统计软件进行相应的操作。提供SAS、SPSS和CSV三种格式的数据,统计软件不受限制。下列各题A)、B)、C)、D)四个选项中,每题至少有一个选项是正确的,多选或少选,均不能得分。

I、一家银行希望使用自有业务数据和外部征信局数据来构造信用评分模型。该数据保存在Credit这张表中。其变量描述如下:

 

分析过程需要使用软件进行,可以使用任何软件完成以下题目:

1、 (AB)

以下哪个变量是分类变量

A. TARGET

B. BanruptcyInd

C. InqFinanceCnt24

D. TLBadDerogCnt

 

2、 (B)

这些变量中,有多少个变量具有缺失值

A. 7

B. 11

C. 12

D. 27

 

3、(B)

InqCnt06的中位数是

A.0

B.2

C.40

D.3.11

 

4、(AC)

以下四个变量中,哪两个右偏严重

A. TLCnt24

B. TlOpenPct

C. TLSatCnt

D. TLSatPct

 

5、(B)

将数据按7:3的比例分为训练集和验证集,对有缺失值的变量使用中位数进行填补后,使用逐步回归法以Target为被解释变量构造逻辑回归,以下哪些变量的解释力度最强

A.TLBadCnt24

B.TLBalHCPct

C.TLCnt03

D.TLDel60Cnt24

 

6-10略

 

(二)、11-20题略



完 谢谢观看

分享
收藏

OK