
0岁数据分析师的入门指南
初入数据分析行业的同学或还在门口徘徊想要从事数据分析职业的同学常常会比较困惑,非常迫切地想要知道作为一个数据分析师,到底需要掌握那些技能,这里笔者作为过来人给到大家一点建议。(注意这里适用的是互联网行业的数据分析师,不一定适合传统行业。)
一、数据分析师是做什么的
首先,你需要了解,数据分析师到底是干什么的,该职位在企业中在扮演一个什么样的角色,为了能结合实际情况进行阐述,这里先给大家看一下某公司招聘数据分析师的JD,
工作职责
1、支持各种常规或临时数据分析需求;
2、提供各类业务相关的分析及建议;
3、通过建模深入挖掘用户或产品方面的有价值的信息;
4、和各部门沟通协调需求并提出各种新的数据分析项目或方案;
5、持续地改进数据采集、处理、分析、报告等各个流程上的工作。
这里有一些关键词,“支持”、“分析”、“建议”、“有价值的信息”、“沟通”、“项目”、“方案”,通过这些关键词可以一窥数据分析师的功能所在。一般来讲数据分析师的日常工作主要分为3部分内容,
(1)支持各业务部门或者领导的日常的数据需求。
(2)针对主题或研究专项进行深入的数据分析,形成有结论和建议的分析报告,甚至是解决方案。
(3)持续的跟进一个项目,和业务人员一样为该项目的KPI负责,同时具有项目推动能力和主人翁精神,“不计一切手段”地想办法达到目标,经常需要从数据上给项目组成员们提供insights。
这里每一部分的内容对分析师的能力要求有所不同,能做好第一部分的人是一个合格数据分析师助理(或者说叫数据专员),能做好第二部分的人是一个不错的初级数据分析师,能做好第三部分的人才是一个真正优秀且对企业有极高价值的数据分析师。
在我的职业生涯中,不止一次的被前辈们教导,一个优秀的数据分析师,一定不能是一个“取数机器”,他要是有头脑,有想法,有能力发现问题并且解决问题的,当然我相信在这个行业能做到这一点的人是凤毛麟角的。如果你已经是一枚数据分析师了,不妨按照上面的几点对号入座,看看自己已经进阶到哪一步了,又有哪些地方还尚需努力。
二、数据分析师的必备技能之工具篇
在身边偶尔会听到别人说做数据分析师,工具不是很重要,重要的是那些软实力,其实这一点我并不敢苟同。俗话说工欲善其事必先利其器,所以工具用的好,其实是可以极大的提升工作效率的。那么作为一名数据分析师,都需要掌握哪些工具呢,这里先列出使用频率最高的3个工具。
(1)sql
学习写sql是做数据分析师的第一步,对于没有数据库和编程语言基础的人来讲,也并不是一件十分困难的事儿,关键在于你是否能找到一个“好师傅”带你飞,这里的“好师傅”一是指教你写sql的入门书籍,上面会系统的讲解sql的相关知识并且最好有实例教学;二是指在工作中会有前辈教你一些书写sql的良好习惯以及优化代码的方法等等(要知道把功能实现是一码事儿,高效的把功能实现是另一码事儿)。这里附上一本我学习sql的书,需要的人自行认领——《SQL基础教程》MICK 著(人民邮电出版社)。优化sql的方法如有需要,我会再开一篇文章给大家分享。
(2)excel
我认为第二重要的工具是excel,而非R,SAS, SPSS, 作为数据分析师,其实和建模师不同的是,分析师更多的时候是在分析数据,而不是建模,分析数据的时候你总得把数据放到一个文件里边是吧,这个文件就是excel。excel的功能远比我们想象的要强大许多,我见过每天用excel做报表的(还是在大型互联网公司),见过每天写vba处理上百封数据的,见过用excel画出十分精美的图表的,毫不夸张的说,做为一个数据分析师基本每天都要打开关闭几十个excel。那么,怎么把excel用的好呢?我觉得有一下几个模块要学会
第一个是公式,excel常用公式要熟练,网上很多教程,很容易找到。
第二个是数据透视表,因为分析数据的时候经常需要拆分到更细的粒度,所以数据透视表不可或缺。
第三个是图表,excel的图表功能基本已经可以满足一个数据分析师的日常需要了,但是什么数据画什么图,这也是一门学问,比如说想要表达趋势,那最好画线图,如果是想表示各个部分的占比,无需纵向对比,那最好画饼图。(这里如有需要我会再开一篇文章写图表的使用方法)。
(3)统计工具(R or SPSS)
一般情况下数据分析师极少会用到统计软件,但是在一些特殊情况下会有用到。比如有的公司也会要求数据分析师做建模一类的工作(一般这类公司缺少数据挖掘的专业人才),这个时候数据分析师可能首先需要了解一些经典的统计模型(最最常用的是逻辑回归模型),为了快速掌握,其实你大可不必去找一本《机器学习》去死磕书本,而是只要了解这个模型的使用场景、数据处理的方法、使用何种软件实现就可以了,这里可能会要求你有一定的概率统计基础,但就算是没有,你也不必要特别担心,搞清楚模型的输入和输出,最后证明模型真的是有用的,这才是王道。(更加专业的数据挖掘我也较少涉猎,感兴趣的同学可以自行想办法学习)。
如果一个人会写sql,精通excel,可以绘制精美的图表,并且懂得一些常用的统计模型,基本上在面试数据分析师职位的时候工具关就可以过了。当然这里还有一些其他的工具,在工作中也起到很大的帮助,比如画结构图的mindmanager,帮助你收藏处理工作文件的有道云笔记,以及做报告时常常用到的ppt。
三、数据分析师的必备技能之思维篇
上面也提到了,数据分析师的主要职责是发现问题,分析问题,解决问题,所以数据分析师主要是靠脑子吃饭,思路决定出路。一般招聘人会在JD中描述要求分析师有“数据敏感度”以及“严谨的逻辑思维能力”等,但是这些到底是什么?这里就给大家讲讲我个人的一些理解。
举个例子,小王做数据的时候发现公司9月份的收入相比去年9月增长了30%,十分高兴的在10月初的月度会议上跟领导汇报了这一好消息,领导却并没有开心,因为公司的主要收入来自软件销售费用,9月份是公司的淡季,软件销售量并没有增长,而且相比去年的时候单价还下降了,收入怎么可能会有增长?领导要求小王对这个数据进行核查,后来经过排查才发现原来是财务部的人将公司历史上的“僵尸账户”(指的是账户里面有钱但是一直没有用)统一放到9月份进行核销了,导致收入大涨。
看完这个例子请你思考一下,什么是数据敏感度,数据敏感度就是当数据变化的时候,你是否能够快速找到跟这个数据联动变化的指标,这个技能非常重要,一是可以帮助你核实数据的准确性,二是能帮你快速发现问题。什么是逻辑思维能力,逻辑思维能力就是在面对一件事情的时候,你往往要在脑海中打无数个问号,比如为什么收入会上涨,是什么原因造成的,要去搞清楚事件背后的真正的逻辑是什么,层层拆解,层层深入,而不是仅仅停留在表面,不爱思考的人是不会有严谨的逻辑思维能力的。
四、数据分析师的必备技能之沟通篇
沟通是一项软技能,也是不分职业的,沟通能力放之四海皆准。这里我仅仅针对数据分析师的沟通技能给到大家一些建议。
数据分析师常常需要和业务方沟通数据需求,举个例子,小李来找小王要收入的数据,小王这个时候不是一声不吭的就打开电脑开始写sql提数,而是问小李,“这个数据是用来做什么的?”小李回答说,“这不马上就要年底了嘛,我们要给销售部分制定KPI!”这个时候小王明白了小李需要数据的目的是给销售团队制定明年的收入目标。小王又问,“明年的销售计划有了吗?”小李想了想回答说,“可能预计会3月份销售旺季提价一次,并且维持现有的销售团队不做新增”。小王又知道了,可能需要将收入拆分成单价*销量,再根据预测的销量去算出总收入,并且预测销量的时候需要剔除9月份的异常值。所以你看,如果小王没有问这2个问题,小李拿着今年的收入数据真的能做出一个合理的目标值吗?
我了解到在一些互联网公司,业务人员往往并不喜欢主动和分析师沟通,他们把分析师当做“取数机器”,只是单纯的认为我要这个数据,你就给我这个数据就可以了,但是事实是,有很多人,他们自己的数据分析能力有限,对问题的理解能力也有限,往往心里期望拿到A数据,表达出来确是B数据,所以这个时候,数据分析师一定要耐心的和业务人员多多沟通,一来可以提高你的工作效率,以免重新返工,二来就是借此机会和业务员人员聊聊天,了解业务,彼此建立信任的关系。毕竟数据分析师是为了业务服务的,离业务太远的数据分析就是空中阁楼,是不接地气的。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在 “神经网络与卡尔曼滤波融合” 的理论基础上,Python 凭借其丰富的科学计算库(NumPy、FilterPy)、深度学习框架(PyTorch、T ...
2025-10-23在工业控制、自动驾驶、机器人导航、气象预测等领域,“状态估计” 是核心任务 —— 即从含噪声的观测数据中,精准推断系统的真 ...
2025-10-23在数据分析全流程中,“数据清洗” 恰似烹饪前的食材处理:若食材(数据)腐烂变质、混杂异物(脏数据),即便拥有精湛的烹饪技 ...
2025-10-23在人工智能领域,“大模型” 已成为近年来的热点标签:从参数超 1750 亿的 GPT-3,到万亿级参数的 PaLM,再到多模态大模型 GPT-4 ...
2025-10-22在 MySQL 数据库的日常运维与开发中,“更新数据是否会影响读数据” 是一个高频疑问。这个问题的答案并非简单的 “是” 或 “否 ...
2025-10-22在企业数据分析中,“数据孤岛” 是制约分析深度的核心瓶颈 —— 用户数据散落在注册系统、APP 日志、客服记录中,订单数据分散 ...
2025-10-22在神经网络设计中,“隐藏层个数” 是决定模型能力的关键参数 —— 太少会导致 “欠拟合”(模型无法捕捉复杂数据规律,如用单隐 ...
2025-10-21在特征工程流程中,“单变量筛选” 是承上启下的关键步骤 —— 它通过分析单个特征与目标变量的关联强度,剔除无意义、冗余的特 ...
2025-10-21在数据分析全流程中,“数据读取” 常被误解为 “简单的文件打开”—— 双击 Excel、执行基础 SQL 查询即可完成。但对 CDA(Cert ...
2025-10-21在实际业务数据分析中,我们遇到的大多数数据并非理想的正态分布 —— 电商平台的用户消费金额(少数用户单次消费上万元,多数集 ...
2025-10-20在数字化交互中,用户的每一次操作 —— 从电商平台的 “浏览商品→加入购物车→查看评价→放弃下单”,到内容 APP 的 “点击短 ...
2025-10-20在数据分析的全流程中,“数据采集” 是最基础也最关键的环节 —— 如同烹饪前需备好新鲜食材,若采集的数据不完整、不准确或不 ...
2025-10-20在数据成为新时代“石油”的今天,几乎每个职场人都在焦虑: “为什么别人能用数据驱动决策、升职加薪,而我面对Excel表格却无从 ...
2025-10-18数据清洗是 “数据价值挖掘的前置关卡”—— 其核心目标是 “去除噪声、修正错误、规范格式”,但前提是不破坏数据的真实业务含 ...
2025-10-17在数据汇总分析中,透视表凭借灵活的字段重组能力成为核心工具,但原始透视表仅能呈现数值结果,缺乏对数据背景、异常原因或业务 ...
2025-10-17在企业管理中,“凭经验定策略” 的传统模式正逐渐失效 —— 金融机构靠 “研究员主观判断” 选股可能错失收益,电商靠 “运营拍 ...
2025-10-17在数据库日常操作中,INSERT INTO SELECT是实现 “批量数据迁移” 的核心 SQL 语句 —— 它能直接将一个表(或查询结果集)的数 ...
2025-10-16在机器学习建模中,“参数” 是决定模型效果的关键变量 —— 无论是线性回归的系数、随机森林的树深度,还是神经网络的权重,这 ...
2025-10-16在数字化浪潮中,“数据” 已从 “辅助决策的工具” 升级为 “驱动业务的核心资产”—— 电商平台靠用户行为数据优化推荐算法, ...
2025-10-16在大模型从实验室走向生产环境的过程中,“稳定性” 是决定其能否实用的关键 —— 一个在单轮测试中表现优异的模型,若在高并发 ...
2025-10-15