CDA数据科学研究院 CDA考试中心 企业服务 关于CDA

cda

全国校区

您的位置:首页 > 大数据时代 > CDA题库-数据分析练习题1

CDA题库-数据分析练习题1

2020-11-03


《数据分析专项练习题库》
《CDA数据分析认证考试模拟题库》
《企业数据分析面试题库》

一、单选题

1.统计图中的散点图主要用来( A   )。

A.观察变量之间的相关关系        B.主要用来表示总体各部分所占的比例

C.主要用来表示次数分布          D.主要用来反映分类数据的频数分布

 

2.抽样误差是指(   D  )

A.在调查过程中由于观察、测量等差错所引起的误差  

B.人为原因所造成的误差

C.在调查中违反随机原则出现的系统误差            

D.随机抽样而产生的代表性误差

 

3.检查异常值常用的统计图形:( B )

A、条形图

B、箱体图

C、帕累托图

D、线图

 

4.线性回归里的残差分析不可能用于诊断( D )

A、残差独立性

B、变量分布

C、异常值侦察

D、最大迭代次数

 

5.拟合logistic回归模型时有两个分类变量,分别是Gender(水平为female和male),Class(水平为1 、2和3),下表为输出结果,下面哪个选项的说法是正确的?(C)

 

A.变量Gender和Class采用效应编码

B.变量Gender采用引用编码,引用水平为female

C.变量Class采用引用编码,引用水平为3

D.变量Gender和Class采用全量编码

 

6.因子分析的主要作用:( A )

A、对变量进行降维

B、对变量进行判别

C、对变量进行聚类

D、以上都不对

 

7.关于K-means 聚类过程正确的是:( A )

A、使用的是迭代的方法

B、均适用于对变量和个案的聚类

C、对变量进行聚类

D、以上都不对

 

8.东北人养了一只鸡和一头猪。一天鸡问猪:"主人呢?"猪说:"出去买蘑菇了。"鸡听了撒丫子就跑。猪说:"你跑什么?"鸡叫道:“有本事主人买粉条的时候你小子别跑!" 

以上对话体现了数据分析方法中的( A  )

A. 关联           B. 聚类          C. 分类        D. 自然语言处理

 

9.已知甲班学生“统计学”的平均成绩为86分,标准差是12.8分,乙班学生“统计学”的平均成绩是90分,标准差是10.3分,下列表述正确的是( A  )

A. 乙班平均成绩的代表性高于甲班

B. 甲班平均成绩的代表性高于乙班

C. 甲、乙两班平均成绩的代表性相同

D. 甲、乙两班平均成绩的代表性无法比较

 

10.根据样本资料估计得出人均消费支出Y对人均收入X的回归模型,表明人均收入每增加1%,人均消费支出将增加( B  )

A. 0.2%               B. 0.75%            C. 2%               D. 7.5%

 

11.某企业根据对顾客随机抽样的信息得到对该企业产品表示满意的顾客比率的95%置信度的置信区间是(56%,64%)。下列正确的表述是( A  )

A.总体比率的95%置信度的置信区间为(56%,64%)

B.总体真实比率有95%的可能落在(56%,64%)中

C.区间(56%,64%)有95%的概率包含了总体真实比率

D.由100次抽样构造的100个置信区间中,约有95个覆盖了总体真实比率

 

12.以下哪个语句可以将字符型数值date(示例:“2001-02-19”)转换为数值类型? ( A  )

A、INPUT(date,YYMMDD10.)

B、PUT(date,YYMMDD10)

C、INPUT(date,YYMMDD10.)

D、PUT(date,YYMMDD10)       

 

13. ,取值范围在[0,1],反映回归曲线的拟合优度,当趋近于0,则回归曲线拟合优度( B  )

A.越好       B. 越差       C. 适中       D. 以上都不对

 

14.分析购买不同产品的频次时,使用以下哪个任务? ( D  )

A、列表数据

B、汇总表

C、汇总统计量

D、单因子频数 

 

15.当你用跑步时间(RunTime)、年龄(Age)、跑步时脉搏(Run_Pulse)以及最高脉搏(Maximum_Pulse)作为预测变量来对耗氧量(Oxygen_Consumption )进行回归时,年龄(Age)的参数估计是-2.78. 这意味着什么?( B  )

A、年龄每增加一岁,耗氧量就增大2.78.

B、年龄每增加一岁,耗氧量就降低2.78.

C、年龄每增加2.78岁,耗氧量就翻倍。

D、年龄每减少2.78岁,耗氧量就翻倍。

 

16.ROC曲线凸向哪个角,代表模型约理想?( A  )

A、左上角

B、左下角

C、右上角

D、右下角

 

17.在所有两位数(10-99)中任取一两位数,则此数能被2或3整除的概率为 (  B )

A. 6/5     B. 2/3    C.  83/100     D.均不对

 

18.对事件A和B,下列正确的命题是   ( D  )

A.如A,B互斥,则也互斥      

B. 如A,B相容,则 也相容

C. 如A,B互斥,且P(A)>0,P(B)>0,则A.B独立   

D. 如A,B独立,则也独立

 

19.掷二枚骰子,事件A为出现的点数之和等于3的概率为 ( B  )

A.1/11      B. 1/18      C. 1/6      D.  都不对

20.A和B两事件,若 P(AUB)=0.8,P(A)=0.2,P()=0.4  则下列 (  B )成立。

A. P()=0.32       B. P()=0.2

C. P(AB)=0.4          D. P()=0.48

 

21.随机地掷一骰子两次,则两次出现的点数之和等于8的概率为 (  C )

A. 3/36      B.  4/36     C.  5/36     D.  2/36

 

22.抽样推断中,可计算和控制的误差是    (  D )

A.登记误差              B.系统性误差(偏差

C.抽样实际误差          D.抽样平均误差

 

23.假设检验中显著性水平是  (  B )

A.推断时犯取伪错误的概率      B.推断时犯取伪弃真的概率

C.正确推断的概率              D.推断时视情况而定

 

24.抽样调查中,无法消除的误差是  ( A  )

A.随机误差    B.工作误差    C.登记误差     D.偏差

 

25.当时,两个相关变量   ( C  )

A.低度相关              B.中度相关    

C.高度相关              D.不相关

 

26.描述一组对称(或正态)分布资料的离散趋势时,最适宜选择的指标是(B)

A.极差        B.标准差        C.均数          D.变异系数   

 

27.以下指标中那一项可用来描述计量资料离散程度(D)

A.算术均数    B.几何均数    C.中位数    D.极差 

 

28.偏态分布资料宜用下面那一项描述其分布的集中趋势(C)

A.算术均数    B.标准差    C.中位数    D.四分位数间距 

 

29.下面那一项可用于比较身高和体重的变异度(C)

A.方差  B.标准差   C.变异系数   D.全距 

 

30.正态曲线下,横轴上从均数到+∞的面积为(C)

A.97.5%    B.95%      C.50%    D.5%    

 

31.横轴上,标准正态曲线下从0到1.96的面积为: (D)

A.95%    B.45%    C.97.5%    D.47.5%  

 

32.下面那一项分布的资料,均数等于中位数。(D)

A.对数正态     B.左偏态      C.右偏态      D.正态

 

33.K-均值类别侦测要求输入的数据类型必须是( B )。

A整型       B数值型     C字符型      D逻辑型

 

34.某一特定的X水平上,总体Y分布的离散度越大,即σ2越大,则(  A    )。

A.预测区间越宽,精度越低          B.预测区间越宽,预测误差越小

C 预测区间越窄,精度越高          D.预测区间越窄,预测误差越大

 

35.如果X和Y在统计上独立,则相关系数等于(   C   )。

A.1      B.-1       C.0       D.∞

 

36.根据决定系数R2与F统计量的关系可知,当R2=1时,有(   D   )。

A.F=1      B.F=-1         C.F=0         D.F=∞

 

37.假设两变量线性相关,两变量是等距或等比的数据,但不呈正态分布,计算它们的相关系数时应选用( B )。 

A. 积差相关        B.斯皮尔曼等级相关 

C.二列相关        D.点二列相关

 

38.回归模型中,关于检验所用的统计量,下列说法正确的是( D )。

A.服从       B.服从           

C.服从       D.服从

 

39.下面有关HAVING子句描述错误的是(B)。

  A:HAVING子句必须与GROUP BY 子句同时使用,不能单独使用

  B:使用HAVING子句的同时不能使用WHERE子句

  C:使用HAVING子句的同时可以使用WHERE子句

  D:使用HAVING子句的作用是限定分组的条件

 

40.  是( C  )分布的密度函数。

  A.指数 B.  二项 C.  均匀 D.  泊松

 

41.根据判定系数R2与F统计量的关系可知,当R2=1时有(   C   )。 

A.F=1          B.F=-1           C.F=∞         D.F=0 

 

42.在SQL查询时,使用WHERE子句指出的是(C)。

  A:查询目标

  B:查询结果

  C:查询条件

  D:查询视图

 

43.SQL查询语句中HAVING子句的作用是(C)。

  A:指出分组查询的范围

  B:指出分组查询的值  

  C:指出分组查询的条件

  D:指出分组查询的字段

 

44.SQL的数据操作语句不包括(D)。

  A:INSERT

  B:UPDATE

  C:DELETE

  D:CHANGE

 

45.SQL语句中查询条件短语的关键字是(A)。

  A:WHERE

  B:FOR

  C:WHILE

  D:CONDITION

 

46.SQL语句中修改表结构的命令是(C)。

  A:MODIFY TABLE

  B:MODIFY STRUCTURE

  C:ALTER TABLE

  D:ALTER STRUCTURE

 

47.SQL语句中删除表的命令是(A)。

  A:DROP TABLE

  B:DELETE TABLE

  C:ERASE TABLE

  D:DELETE DBF

 

二、多选题

48.相关有以下几种(ABC)。 

A.正相关    B.负相关    C.零相关    D.常相关 

 

49.相关系数的取值可以是(ABC)。 

A. 0     B.-1     C. 1     D. 2 

 

50.某种产品的生产总费用2003年为50万元,比2002年多2万元,而单位产品成本2003年比2002年降低5%,则(   ACDE    )

 A、生产费用总指数为104.17%      B、生产费用指数为108.56%

 C、单位成本指数为95%            D、产量指数为109.65%

 E、由于成本降低而节约的生产费用为2.63万元

 

51.三个地区同一种商品的价格报告期为基期的108%,这个指数是(  BE  )

 A、个体指数      B、总指数     C、综合指数

 D、平均数指数    E、质量指标指数

 

52.有关数据库的说法正确的是(ABCD)

A.元数据是描述数据的数据

B.使用索引可以快速访问数据库中的数据,所以可以在数据库中尽量多的建立索引

C.数据库中一行叫做记录

D.数据库中的每一个项目叫做字段

 

53.统计数据按来源分类,可以分为(BD)

A.类别数据    B.二手数据

C.序列数据    D.一手数据

E.数值数据

 

53.以下哪些变量代表RFM方法中的M:( AB )

A.最近3期境外消费金额

B.最近6期网银平均消费金额

C.信用卡的消费额度

D.距最近一次逾期的月数

 

54.在作逻辑回归时,如果区域这个变量,当Region=A时Y取值均为1,无法确定是否出现的是哪个问题?(ABD)

A. 共线性

B. 异常值

C. 拟完全分离(Quasi-complete separation)

D. 缺失值

 

55.下列Z值( BCD )可以被认为是异常值。

A、0     B、-3    C、6    D、10  

 

56.下列问题( ABC )使用参数检验分析方法。

A、评估灯泡使用寿命                         B、检验食品某种成分的含量

C、全国小学一年级学生一学期的平均课外作业时间  D、全国省市小康指数高低

 

57.两独立样本t检验的前提( ABC )

A、样本来自的总体服从或近似服从正态分布  B、两样本相互独立  

C、两样本的数量可以不相等                D、两样本的数量相等

 

58.两配对样本t检验的前提( ABD )

A、样本来自的总体服从或近似服从正态分布  B、两样本观察值的先后顺序一一对应  

C、两样本的数量可以不相等                D、两样本的数量相等

 

59.下面给出的t检验的结果,( CD )表明接受原假设,显著性水平为0.05。

A、0.000      B、0.039     C、0.092     D、0.124

 

60.方差分析的基本假设前提包括( AC )

A、各总体服从正态分布  B、各总体相互独立  

C、各总体的方差应相同  D、各总体的方差不同

 

61.下列( ABC )属于多选项问题。

A、购买保险原因调查     B、高考志愿调查    

C、储蓄原因调查         D、各省市现代化指数分析

 

62.层次聚类的聚类方式分为两种,分别是( AB )

A、凝聚方式聚类    B、分解方式聚类     C、Q型聚类      D、R型聚类

完 谢谢观看

分享
收藏

OK