从阿里巴巴笔试试题看数据分析师的职业要求-CDA数据分析师官网

热线电话：13121318867

首页精彩阅读从阿里巴巴笔试试题看数据分析师的职业要求

从阿里巴巴笔试试题看数据分析师的职业要求

2015-04-03

从阿里巴巴笔试试题看数据分析师的职业要求

以下试题是来自阿里巴巴2011年招募实习生的一次笔试题，从笔试题的几个要求我们一起来看看数据分析的职业要求。

一、异常值是指什么？请列举1种识别连续型变量异常值的方法？

异常值（Outlier）是指样本中的个别值，其数值明显偏离所属样本的其余观测值。在数理统计里一般是指一组观测值中与平均值的偏差超过两倍标准差的测定值。

Grubbs’ test（是以Frank E. Grubbs命名的），又叫maximum normed residual test，是一种用于单变量数据集异常值识别的统计检测，它假定数据集来自正态分布的总体。

未知总体标准差σ，在五种检验法中，优劣次序为：t检验法、格拉布斯检验法、峰度检验法、狄克逊检验法、偏度检验法。

点评：考察的内容是统计学基础功底。

二、什么是聚类分析？聚类算法有哪几种？请选择一种详细描述其计算原理和步骤。

聚类分析(cluster analysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术。聚类分析也叫分类分析(classification analysis)或数值分类(numerical taxonomy)。聚类与分类的不同在于，聚类所要求划分的类是未知的。

聚类分析计算方法主要有：层次的方法（hierarchical method）、划分方法（partitioning method）、基于密度的方法（density-based method）、基于网格的方法（grid-based method）、基于模型的方法（model-based method）等。其中，前两种算法是利用统计学定义的距离进行度量。

k-means 算法的工作过程说明如下：首先从n个数据对象任意选择 k 个对象作为初始聚类中心；而对于所剩下其它对象，则根据它们与这些聚类中心的相似度（距离），分别将它们分配给与其最相似的（聚类中心所代表的）聚类；然后再计算每个所获新聚类的聚类中心（该聚类中所有对象的均值）；不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数. k个聚类具有以下特点：各聚类本身尽可能的紧凑，而各聚类之间尽可能的分开。

其流程如下：

（1）从 n个数据对象任意选择 k 个对象作为初始聚类中心；

（2）根据每个聚类对象的均值（中心对象），计算每个对象与这些中心对象的距离；并根据最小距离重新对相应对象进行划分；

（3）重新计算每个（有变化）聚类的均值（中心对象）；

（4）循环（2）、（3）直到每个聚类不再发生变化为止（标准测量函数收敛）。

优点：本算法确定的K 个划分到达平方误差最小。当聚类是密集的，且类与类之间区别明显时，效果较好。对于处理大数据集，这个算法是相对可伸缩和高效的，计算的复杂度为O(NKt)，其中N是数据对象的数目，t是迭代的次数。一般来说，K<，t<。

缺点：1. K 是事先给定的，但非常难以选定；2. 初始聚类中心的选择对聚类结果有较大的影响。

点评：考察的内容是常用数据分析方法，做数据分析一定要理解数据分析算法、应用场景、使用过程、以及优缺点。

三、根据要求写出SQL

表A结构如下：

Member_ID（用户的ID，字符型）

Log_time（用户访问页面时间，日期型（只有一天的数据））

URL（访问的页面地址，字符型）

要求：提取出每个用户访问的第一个URL（按时间最早），形成一个新表（新表名为B，表结构和表A一致）

createtable B asselectMember_ID, min(Log_time), URL from Agroup byMember_ID ;

点评：SQL语句，简单的数据获取能力，包括表查询、关联、汇总、函数等。

另外，这个答案其实是不对的，实现有很多方法，任由大家去发挥吧。

四、销售数据分析

以下是一家B2C电子商务网站的一周销售数据，该网站主要用户群是办公室女性，销售额主要集中在5种产品上，如果你是这家公司的分析师，

a) 从数据中，你看到了什么问题？你觉得背后的原因是什么？

b) 如果你的老板要求你提出一个运营改进计划，你会怎么做？

表如下：一组每天某网站的销售数据

a) 从这一周的数据可以看出，周末的销售额明显偏低。这其中的原因，可以从两个角度来看：站在消费者的角度，周末可能不用上班，因而也没有购买该产品的欲望；站在产品的角度来看，该产品不能在周末的时候引起消费者足够的注意力。

b) 针对该问题背后的两方面原因，我的运营改进计划也分两方面：一是，针对消费者周末没有购买欲望的心理，进行引导提醒消费者周末就应该准备好该产品；二是，通过该产品的一些类似于打折促销等活动来提升该产品在周末的人气和购买力。

点评：数据解读能力，获取数据是基本功，仅仅有数据获取能力是不够的，其次是对数据的解读能力。

五、用户调研

某公司针对A、B、C三类客户，提出了一种统一的改进计划，用于提升客户的周消费次数，需要你来制定一个事前试验方案，来支持决策，请你思考下列问题：

a) 试验需要为决策提供什么样的信息？

c) 按照上述目的，请写出你的数据抽样方法、需要采集的数据指标项，以及你选择的统计方法。

a) 试验要能证明该改进计划能显著提升A、B、C三类客户的周消费次数。

b) 根据三类客户的数量，采用分层比例抽样；

需要采集的数据指标项有：客户类别，改进计划前周消费次数，改进计划后周消费次数；

选用统计方法为：分别针对A、B、C三类客户，进行改进前和后的周消费次数的，两独立样本T-检验（two-sample t-test）。

点评：业务理解能力和数据分析思路，这是数据分析的核心竞争力。

综上所述：一个合格的数据分析应该具备统计学基础知识、数据分析方法、数据获取、数据解读和业务理解、数据分析思想几个方面能力，即将成为数据分析师的亲们，你们准备好了吗？

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

数据分析 SQL 连续型变量正态分布偏差表结构统计分析大数据

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇图论在大数据分析中的作用！

下一篇CDA认证再升一档！与国家共同推进大数据人才培养标准教育事业！

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

从阿里巴巴笔试试题看数据分析师的职业要求

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】SQL统计月度每日夜间数据：口径定义、多 ...

【CDA干货】特征置换重要性分析：原理、计算流程、 ...

从“单元格”到“字段”：CDA数据分析师视角下的表 ...

CDA持证人专访：张继荣谈销售转岗数据分析的追梦路 ...

【CDA干货】Excel卡方检验实操指南：原理、步骤、结 ...

从“单元格”到“洞察”：CDA数据分析师视角下的表 ...

【CDA干货】Excel透视表数据直接跨单元格相乘：风险 ...

从“行列规范”到“业务洞察”：CDA数据分析师视角 ...

数据分析师就业难不难？薪资待遇如何？考 CDA 证书 ...

CDA 持证人专访：刘燕谈数据分析师业务落地与项目实 ...

【CDA干货】数据清洗核心技术体系：缺失值填充、去 ...

从“数据”到“洞察”：CDA数据分析师视角下的统计 ...

【CDA干货】指标生命周期全链路管理：从规划设计到 ...

【CDA干货】留存运营指标体系：计算口径、分析方法 ...

从“工具操作”到“方法驾驭”：CDA数据分析师视角 ...

CDA 持证人专访：杨迅谈保险行业数据产品与数据中台 ...

【CDA干货】MySQL分表数据读取：核心方案、查询优化 ...

从“凭感觉”到“有章法”：CDA数据分析师视角下的 ...

【CDA干货】面板数据聚类分析：方法原理、实操流程 ...

以指标为锚，以体系为纲：CDA数据分析师视角下的指 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载