一、单选题
1.统计图中的散点图主要用来( A )。
A.观察变量之间的相关关系 B.主要用来表示总体各部分所占的比例
C.主要用来表示次数分布 D.主要用来反映分类数据的频数分布
2.抽样误差是指( D )
A.在调查过程中由于观察、测量等差错所引起的误差
B.人为原因所造成的误差
C.在调查中违反随机原则出现的系统误差
D.随机抽样而产生的代表性误差
3.检查异常值常用的统计图形:( B )
A、条形图
B、箱体图
C、帕累托图
D、线图
4.线性回归里的残差分析不可能用于诊断( D )
A、残差独立性
B、变量分布
C、异常值侦察
D、最大迭代次数
5.拟合logistic回归模型时有两个分类变量,分别是Gender(水平为female和male),Class(水平为1 、2和3),下表为输出结果,下面哪个选项的说法是正确的?(C)
A.变量Gender和Class采用效应编码
B.变量Gender采用引用编码,引用水平为female
C.变量Class采用引用编码,引用水平为3
D.变量Gender和Class采用全量编码
6.因子分析的主要作用:( A )
A、对变量进行降维
B、对变量进行判别
C、对变量进行聚类
D、以上都不对
7.关于K-means 聚类过程正确的是:( A )
A、使用的是迭代的方法
B、均适用于对变量和个案的聚类
C、对变量进行聚类
D、以上都不对
8.东北人养了一只鸡和一头猪。一天鸡问猪:"主人呢?"猪说:"出去买蘑菇了。"鸡听了撒丫子就跑。猪说:"你跑什么?"鸡叫道:“有本事主人买粉条的时候你小子别跑!"
以上对话体现了数据分析方法中的( A )
9.已知甲班学生“统计学”的平均成绩为86分,标准差是12.8分,乙班学生“统计学”的平均成绩是90分,标准差是10.3分,下列表述正确的是( A )
A. 乙班平均成绩的代表性高于甲班
B. 甲班平均成绩的代表性高于乙班
C. 甲、乙两班平均成绩的代表性相同
D. 甲、乙两班平均成绩的代表性无法比较
10.根据样本资料估计得出人均消费支出Y对人均收入X的回归模型,表明人均收入每增加1%,人均消费支出将增加( B )
A. 0.2% B. 0.75% C. 2% D. 7.5%
11.某企业根据对顾客随机抽样的信息得到对该企业产品表示满意的顾客比率的95%置信度的置信区间是(56%,64%)。下列正确的表述是( A )
A.总体比率的95%置信度的置信区间为(56%,64%)
B.总体真实比率有95%的可能落在(56%,64%)中
C.区间(56%,64%)有95%的概率包含了总体真实比率
D.由100次抽样构造的100个置信区间中,约有95个覆盖了总体真实比率
12.以下哪个语句可以将字符型数值date(示例:“2001-02-19”)转换为数值类型? ( A )
A、INPUT(date,YYMMDD10.)
B、PUT(date,YYMMDD10)
C、INPUT(date,YYMMDD10.)
D、PUT(date,YYMMDD10)
13. ,取值范围在[0,1],反映回归曲线的拟合优度,当趋近于0,则回归曲线拟合优度( B )
A.越好 B. 越差 C. 适中 D. 以上都不对
14.分析购买不同产品的频次时,使用以下哪个任务? ( D )
A、列表数据
B、汇总表
C、汇总统计量
D、单因子频数
15.当你用跑步时间(RunTime)、年龄(Age)、跑步时脉搏(Run_Pulse)以及最高脉搏(Maximum_Pulse)作为预测变量来对耗氧量(Oxygen_Consumption )进行回归时,年龄(Age)的参数估计是-2.78. 这意味着什么?( B )
A、年龄每增加一岁,耗氧量就增大2.78.
B、年龄每增加一岁,耗氧量就降低2.78.
C、年龄每增加2.78岁,耗氧量就翻倍。
D、年龄每减少2.78岁,耗氧量就翻倍。
16.ROC曲线凸向哪个角,代表模型约理想?( A )
A、左上角
B、左下角
C、右上角
D、右下角
17.在所有两位数(10-99)中任取一两位数,则此数能被2或3整除的概率为 ( B )
A. 6/5 B. 2/3 C. 83/100 D.均不对
18.对事件A和B,下列正确的命题是 ( D )
A.如A,B互斥,则,也互斥
B. 如A,B相容,则, 也相容
C. 如A,B互斥,且P(A)>0,P(B)>0,则A.B独立
D. 如A,B独立,则,也独立
19.掷二枚骰子,事件A为出现的点数之和等于3的概率为 ( B )
A.1/11 B. 1/18 C. 1/6 D. 都不对
20.A和B两事件,若 P(AUB)=0.8,P(A)=0.2,P()=0.4 则下列 ( B )成立。
A. P()=0.32 B. P()=0.2
C. P(AB)=0.4 D. P()=0.48
21.随机地掷一骰子两次,则两次出现的点数之和等于8的概率为 ( C )
A. 3/36 B. 4/36 C. 5/36 D. 2/36
22.抽样推断中,可计算和控制的误差是 ( D )
A.登记误差 B.系统性误差(偏差)
C.抽样实际误差 D.抽样平均误差
23.假设检验中显著性水平是 ( B )
A.推断时犯取伪错误的概率 B.推断时犯取伪弃真的概率
C.正确推断的概率 D.推断时视情况而定
24.抽样调查中,无法消除的误差是 ( A )
A.随机误差 B.工作误差 C.登记误差 D.偏差
25.当时,两个相关变量 ( C )
A.低度相关 B.中度相关
C.高度相关 D.不相关
26.描述一组对称(或正态)分布资料的离散趋势时,最适宜选择的指标是(B)
A.极差 B.标准差 C.均数 D.变异系数
27.以下指标中那一项可用来描述计量资料离散程度(D)
A.算术均数 B.几何均数 C.中位数 D.极差
28.偏态分布资料宜用下面那一项描述其分布的集中趋势(C)
A.算术均数 B.标准差 C.中位数 D.四分位数间距
29.下面那一项可用于比较身高和体重的变异度(C)
30.正态曲线下,横轴上从均数到+∞的面积为(C)
A.97.5% B.95% C.50% D.5%
31.横轴上,标准正态曲线下从0到1.96的面积为: (D)
A.95% B.45% C.97.5% D.47.5%
32.下面那一项分布的资料,均数等于中位数。(D)
A.对数正态 B.左偏态 C.右偏态 D.正态
33.K-均值类别侦测要求输入的数据类型必须是( B )。
A整型 B数值型 C字符型 D逻辑型
34.某一特定的X水平上,总体Y分布的离散度越大,即σ2越大,则( A )。
A.预测区间越宽,精度越低 B.预测区间越宽,预测误差越小
C 预测区间越窄,精度越高 D.预测区间越窄,预测误差越大
35.如果X和Y在统计上独立,则相关系数等于( C )。
A.1 B.-1 C.0 D.∞
36.根据决定系数R2与F统计量的关系可知,当R2=1时,有( D )。
A.F=1 B.F=-1 C.F=0 D.F=∞
37.假设两变量线性相关,两变量是等距或等比的数据,但不呈正态分布,计算它们的相关系数时应选用( B )。
A. 积差相关 B.斯皮尔曼等级相关
C.二列相关 D.点二列相关
38.回归模型中,关于检验所用的统计量,下列说法正确的是( D )。
A.服从 B.服从
C.服从 D.服从
39.下面有关HAVING子句描述错误的是(B)。
A:HAVING子句必须与GROUP BY 子句同时使用,不能单独使用
B:使用HAVING子句的同时不能使用WHERE子句
C:使用HAVING子句的同时可以使用WHERE子句
D:使用HAVING子句的作用是限定分组的条件
40. 是( C )分布的密度函数。
A.指数 B. 二项 C. 均匀 D. 泊松
41.根据判定系数R2与F统计量的关系可知,当R2=1时有( C )。
A.F=1 B.F=-1 C.F=∞ D.F=0
42.在SQL查询时,使用WHERE子句指出的是(C)。
A:查询目标
B:查询结果
C:查询条件
D:查询视图
43.SQL查询语句中HAVING子句的作用是(C)。
A:指出分组查询的范围
B:指出分组查询的值
C:指出分组查询的条件
D:指出分组查询的字段
44.SQL的数据操作语句不包括(D)。
A:INSERT
B:UPDATE
C:DELETE
D:CHANGE
45.SQL语句中查询条件短语的关键字是(A)。
A:WHERE
B:FOR
C:WHILE
D:CONDITION
A:MODIFY TABLE
B:MODIFY STRUCTURE
C:ALTER TABLE
D:ALTER STRUCTURE
47.SQL语句中删除表的命令是(A)。
A:DROP TABLE
B:DELETE TABLE
C:ERASE TABLE
D:DELETE DBF
二、多选题
48.相关有以下几种(ABC)。
A.正相关 B.负相关 C.零相关 D.常相关
49.相关系数的取值可以是(ABC)。
A. 0 B.-1 C. 1 D. 2
50.某种产品的生产总费用2003年为50万元,比2002年多2万元,而单位产品成本2003年比2002年降低5%,则( ACDE )
A、生产费用总指数为104.17% B、生产费用指数为108.56%
C、单位成本指数为95% D、产量指数为109.65%
E、由于成本降低而节约的生产费用为2.63万元
51.三个地区同一种商品的价格报告期为基期的108%,这个指数是( BE )
A、个体指数 B、总指数 C、综合指数
D、平均数指数 E、质量指标指数
52.有关数据库的说法正确的是(ABCD)
A.元数据是描述数据的数据
B.使用索引可以快速访问数据库中的数据,所以可以在数据库中尽量多的建立索引
C.数据库中一行叫做记录
D.数据库中的每一个项目叫做字段
53.统计数据按来源分类,可以分为(BD)
A.类别数据 B.二手数据
C.序列数据 D.一手数据
E.数值数据
53.以下哪些变量代表RFM方法中的M:( AB )
A.最近3期境外消费金额
B.最近6期网银平均消费金额
C.信用卡的消费额度
D.距最近一次逾期的月数
54.在作逻辑回归时,如果区域这个变量,当Region=A时Y取值均为1,无法确定是否出现的是哪个问题?(ABD)
A. 共线性
B. 异常值
C. 拟完全分离(Quasi-complete separation)
D. 缺失值
55.下列Z值( BCD )可以被认为是异常值。
A、0 B、-3 C、6 D、10
56.下列问题( ABC )使用参数检验分析方法。
A、评估灯泡使用寿命 B、检验食品某种成分的含量
C、全国小学一年级学生一学期的平均课外作业时间 D、全国省市小康指数高低
57.两独立样本t检验的前提( ABC )
A、样本来自的总体服从或近似服从正态分布 B、两样本相互独立
C、两样本的数量可以不相等 D、两样本的数量相等
58.两配对样本t检验的前提( ABD )
A、样本来自的总体服从或近似服从正态分布 B、两样本观察值的先后顺序一一对应
C、两样本的数量可以不相等 D、两样本的数量相等
59.下面给出的t检验的结果,( CD )表明接受原假设,显著性水平为0.05。
A、0.000 B、0.039 C、0.092 D、0.124
60.方差分析的基本假设前提包括( AC )
A、各总体服从正态分布 B、各总体相互独立
61.下列( ABC )属于多选项问题。
A、购买保险原因调查 B、高考志愿调查
C、储蓄原因调查 D、各省市现代化指数分析
A、凝聚方式聚类 B、分解方式聚类 C、Q型聚类 D、R型聚类
——学数据分析技能一定要了解的大厂入门券,CDA数据分析师认证证书!
CDA(数据分析师认证),与CFA相似,由国际范围内数据科学领域行业专家、学者及知名企业共同制定并修订更新,迅速发展成行业内长期而稳定的全球大数据及数据分析人才标准,具有专业化、科学化、国际化、系统化等特性。
同时,CDA全栈考试布局和认证体系已得社会认可,并由为IBM、华为等提供全球认证服务的Pearson VUE面向全球提供灵活的考试服务。
报名方式
登录CDA认证考试官网注册报名>>点击报名
报名费用
Level Ⅰ:1200 RMB
Level Ⅱ:1700 RMB
Level Ⅲ:2000 RMB
考试地点
Level Ⅰ + Level Ⅱ:中国区30+省市,70+城市,250+考场,考生可就近考场预约考试 >看看我所在的地哪里报名<
Level Ⅲ:中国区30所城市,北京/上海/天津/重庆/成都/深圳/广州/济南/南京/杭州/苏州/福州/太原/武汉/长沙/西安/贵阳/郑州/南宁/昆明/乌鲁木齐/沈阳/哈尔滨/合肥/石家庄/呼和浩特/南昌/长春/大连/兰州>看看我所在的地哪里报名<
报考条件
CDA Level I >了解更多<
▷ 报考条件:无要求。
▷ 考试时间:随报随考。
CDA Level II >了解更多<
▷ 报考条件:获得CDA Level Ⅰ认证证书;
▷ 考试时间:随报随考。
CDA Level III >了解更多<
▷ 报考条件:获得CDA Level Ⅱ认证证书;
▷ 考试时间:一年四届 3月、6月、9月、12月的最后一个周六。
数据分析咨询请扫描二维码
在现代信息技术的广阔世界中,大数据架构师扮演着至关重要的角色。他们不仅引领着企业的数据战略,还通过技术创新推动业务的不断 ...
2024-11-04在当今数字化时代,数据分析师已成为企业关键角色,帮助决策者通过数据驱动的洞察实现业务目标。成为一名成功的数据分析师,需要 ...
2024-11-03在当今数字化的世界中,数据分析已经成为推动商业决策的关键因素。随着公司和组织越来越依赖数据来驱动业务战略,对数据分析专 ...
2024-11-03《Python数据分析极简入门》 第2节 2 Pandas数据类型 Pandas 有两种自己独有的基本数据结构。需要注意的是,它固然有着两种数据 ...
2024-11-01《Python数据分析极简入门》 第2节 1 Pandas简介 说好开始学Python,怎么到了Pandas? 前面说过,既然定义为极简入门,我们只抓 ...
2024-10-31在当今数据驱动的世界中,数据科学与工程专业的重要性愈发凸显。无论是推动技术进步,还是在商业决策中提供精准分析,这一专业都 ...
2024-10-30在当今信息爆炸的时代,数据已成为企业决策和战略制定的核心资源。爬虫工程师因此成为数据获取和挖掘的关键角色。本文将详细介绍 ...
2024-10-30在当今数据驱动的世界中,数据分析是揭示商业洞察和推动决策的核心力量。选择合适的数据分析工具对于数据专业人士而言至关重要。 ...
2024-10-30能源企业在全球经济和环境保护双重压力下,正面临前所未有的挑战与机遇。数字化转型作为应对这些挑战的关键手段,正在深刻变革传 ...
2024-10-30近年来,随着数据科学的逐步发展,Python语言的使用率也越来越高,不仅可以做数据处理,网页开发,更是数据科学、机器学习、深度 ...
2024-10-30大数据分析师证书 针对不同知识,掌握程度的要求分为【领会】、【熟知】、【应用】三个级别,考生应按照不同知识要求进行学习。 ...
2024-10-30《Python数据分析极简入门》 附:Anaconda安装教程 注:分Windows系统下安装和MacOS系统安装 1. Windows系统下安装 第一步清华大 ...
2024-10-29拥抱数据分析的世界 - 成为一名数据分析工程师是一个充满挑战和机遇的职业选择。要成功地进入这个领域,你需要掌握一系列关键技 ...
2024-10-28降本增效:管理战略的关键 企业管理中的降本增效不仅是一项重要的战略举措,更是激发竞争力、提高盈利能力的关键。这一理念在当 ...
2024-10-28企业数字化是指利用数字技术和信息化手段,对企业的各个方面进行改造和优化,以提升生产效率、服务质量和市场竞争力的过程。实现 ...
2024-10-28数据科学专业毕业后,毕业生可以选择从事多种不同的岗位和领域。数据科学是一个快速发展且广泛应用的领域,毕业生在企业、学术界 ...
2024-10-28学习数据科学与大数据技术是当今职业发展中至关重要的一环。从基础到高级,以下是一些建议的课程路径: 基础课程: Python编程 ...
2024-10-28在信息技术和数据科学领域,数据架构师扮演着至关重要的角色。他们负责设计和管理企业中复杂的数据基础设施,以支持数据驱动的决 ...
2024-10-28进入21世纪以来,随着信息技术的迅猛发展,大数据已经成为全球最具影响力的技术之一,并成为企业数字化转型的核心驱动力。大数据 ...
2024-10-28随着科技的迅猛发展,数字化转型已成为现代企业保持竞争力和推动增长的关键战略之一。数字化不仅仅是技术的应用,它代表着一种全 ...
2024-10-28