京公网安备 11010802034615号
经营许可证编号:京B2-20210330
去年的CDAS 2016 第三届中国数据分析师行业峰会上,有一个比较特别的分论坛。这个论坛的嘉宾有些原本并不是业内人士,但经过一段时间的学习,他们成功转型,成为一名数据分析师。他们也有一个共同的身份—— CDA 数据分析师学员。
李运超同学在论坛上分享了自己从一个财会从业者到一名数据分析师的成长历程。本文根据李运超在峰会上的分享整理而成。
大家好!我叫李运超,我目前是在中国人寿保险分公司做分析师,我是CDA第四期的学员,也是刚刚从一个数据分析的学习者变成从业人员。
我以前其实是做财务会计的,在座可能有的人对财务会计有些了解,它和数据分析师中间差别很大。大家会好奇,我是为什么要从财务会计到一个数据分析师呢?
跟大家分享一下我自身思维的转变。我以前是在一个央企做财务会计的,当时负责整个项目,包括会计的核算、税务的管理,整个项目下来大概半年多到一年,通过这份工作对自己大学、研究生的知识有一个充分的应用。但是通过工作会发现,在工作中和你自己想象其实是不太一样的,我个人对于我自身的一个定位始,终是要将我所学到的一些知识应用到企业的管理上,能够发挥自身的一些价值。但是在工作中,我发现其实长期看,我的工作会是一个项目一个项目下去,对一个财务人员来说,跟我的性格不太相符。我想转变,想发挥自己更大的作用。
怎么做呢?当时我刚一开始并没有想一步跨越到数据分析师这个职业上来,当时我是想做偏向于财务预算的,但是在不断地了解过程中,发现我原来上学时,对于工具使用和数据分析方面的知识储备不足,后来我找工作的时候都会提出要求懂一些数据库的东西,当时就感觉蒙了,就不知道自己原来差得这么多。
经过几个月的考量,我最后决定用一段时间去系统地学习一下这个东西,做数据分析相关的工作。这样可以让数据的应用发挥一个更大的价值,而不仅仅是对于一些事务性的简单的处理。就这样,我从一个财务人员逐步地走到了数据分析这个行业里来了。
要做数据分析,我们要学习的东西其实还是很多的,包括一些工具、数据库,还有一些财务统计的知识,以及一些算法。
从工具来说,我们首先会应用到的是Excel。我们在后期应用一些专业的工具进行处理的时候,对于数据的格式还是有要求的,还有数据的拆分。我们所应用到的最基础的工具就是Excel,除了可以数据拆分,还能进行数据分析。
当时我做的一个工作就是将数据产品拆分出来,刚开始我想用SAS进行拆分,我的机子比较老,就带不动,后来我发现Excel可以轻松地搞定。Excel有很多函数,可以进行一对一的匹配。另外,Excel有些数据透视表,对分类的汇总,以及后期把数据带入到工具里面是很有用的;数据透视图,可以做可视化展现的方式。如果你对Excel的VBA再熟悉一些的话,处理数据就很方便了。
另外,学完Excel之后,我又学了STATA和SAS。这些软件相对来说比较菜单化,能够做很多东西,包括一些简单的统计分析,求一下最大值、最小值,中位数,还有可以做一些上学学到的分析检验等。但不仅仅停留在这个层次,数据分析会涉及到包括回归、聚类和分类、时间序列等方法。
比如回归,学的就是一个方程,这是最基本的,其实还可以扩展。它是干什么用的呢?就是对于发生额的预测。比如说一条订单记录会有一些变量,包括性别、年龄、收入等等。通过它其实我们就可以列出一个方程来,预测一个未来值,在我们销售和一个发生值相关的时候,就可以定位。可以把客户分成几类,哪些人属于高价值的客户,哪些人属于相对来说一般的。
还有一个与此相关的逻辑回归,看名字很相似,之所以放到一块是因为它最后的展现形式。不同的是逻辑回归是一个事件的发生概率,这个事情发生不发生,他会不会购买,这是我们常会遇到一个问题。通过逻辑回归就可以根据原有数据归纳出结论。
回归和逻辑回归通常来说都是综合结合来用的,比如说我们把预测出来的金额分成十个档,第一是金额最大的,那么在分析的时候还会有一个问题,这就是种购买金额最高的人,他购买的发生概率是什么?这需要做一个横向的匹配,这样的话我们就会归纳出在实际应用中,发生额和发生概率的排序。我们企业资源都是有限的,在实践应用中我们会根据排序截取前50%的比例,或者20%的比例进行资源投入,这样会获得最大的收益。
聚类和分类,这两个东西看起来很相似,都是跟类别有关系,它们的不同在于聚类是一个无监督学习,分类是一个有监督学习。
聚类是干吗的?我们其实不知道这里边有几类,弄到一堆这就是聚类。这对一些未知领域的探索很有帮助,我们在聚类的时候都会把它规划成一圈,在聚类之前做一个分析。这样的话可以降低纬度,避免一些纬度灾难。
做好了聚类之后下面就可以分类了,比如说可分成三堆,又来了一个东西,看看它跟哪个是一堆的,就分类了。其实我们常用的算法,包括前面提到的逻辑回归,到决策树、神经网络都是可以用来分类的。
还有第三类就是时间序列,炒股的话就会发现股票的价格会随着时间的波动而波动。还有销量,从某种意义上讲时间是有相关性的。
数据并不是直接拿过来就能用。更多的情况下,企业会把数据放在数据库,量大的话还会放在数据仓库里面。我在面试的时候遇到的两个常见的问题,第一个你为什么会做数据分析师,另外一个就是你的数据库应用能力。数据库的接收是不需要掌握的,主要是数据库的查询,数据库里面各种资料的认识是必须要具备的,我们常用的一个整体查询就是各种字段,从哪个表分类一下,分类端再做一个排序,一般都会涉及到多张表。
对于数据库这块还是要多掌握一些知识。常用的数据库都是关系型数据库,如果有能力非关系型数据库还是要多学习一下,还没有工作的同学可以把精力投入一些,找工作数据库不行的话就直接被Pass掉了。
除了数据分析的工具,也懂数据库,在数据分析里边还有一些内在的思想,包括一些传统的统计方法,还有算法。算法很多,因为时间有限,我不打算多讲。逻辑回归、决策树、神经网络都可以学一下,这些算法有一些是常用的和非常用的,有些是针对同一个问题有不同的角度,如果时间有限的话,可以专精于某一类。不管是做回归,还是做分类、聚类,你可以挑一两个算法进行研究,算法研究精了之后对数据分析可以有很深刻的理解。
下边一个问题是数据的可视化的问题。不管你是用了回归还是聚类,最后一个问题就是展现,展现给你们的Boss你到底做了什么?不见得要展示你的成果,更多的是对于企业里面的各种信息的生动展示。
我个人用得多的是Excel和Tableau,我们从集团到各个下面的子公司都在用这个东西。我觉得在数据可视化这一块要遵循两点,第一点就是化繁为简。我们每个月报给最高层有一份报告是50多页,当时我看了都头大。最后我们同事之间大家相互协作,把50多页的东西弄成了9页,它的纬度却可以细化到中层子公司。不要再把一堆Excel表、PPT拿出来了,那样就很Low了,你要想到的第一个问题如何将你的大量的工作成果展现在很少的一个界面上。
第二带你就是直观。最简单的,比如在Excel里用数据透视图,做一个柱状图和一个线,反映未来的趋势,或者横向的对比,都是一个直观的展现,你能做到化繁为简、深入浅出,你的可视化是很成功的。
说了这么多,我们最终还是要有一个系统的数据应用。
第一步是获取数据,数据的来源很多,包括Excel表、数据库,还有通过其他的一些网上的抓取,包括爬虫、网络分析等。
第二步是处理数据。在我实际的工作中,包括我与其他同行沟通,数据处理的过程可以占到整个工作任务的将近70%多。为什么呢?数据价值的认知是一个逐步完善的过程,很多企业原先对于数据的认识没那么强,可能就是某个部门,比如企划、风控、运营等部门,会把数据库里面有关的数据拿出来,自己做报告。现在又上升到一个更高的层次,做数据分析、数据可视化的时候,就发现数据乱七八糟,看了之后就头大,就需要通过各种工具,用SAS,Python进行整理,一方面把数据整理成自己需要的形式,整理成一定的字段和纬度,这样才可以做分析。
其实目前我在工作的这一段时间中并没有用到很复杂的算法,应用的主要是三个方面。
第一,我会用Python、Tableau对数据进行处理。我和同事进行了反复的沟通,不断地了解这些高层人员到底想看什么,我按照自身的理解把它展示出来,后来老板说这个东西没有把核心的需求拿出来。
这其实就犯了一个毛病,我在刚一开始的需求分析就不够深入。其实也是可以理解的,因为刚一开始接触工作,对于整个行业也是一个初步的认识,你可能拿捏不好。随着业务的逐步深入,你首先要了解你这个业务整体老板的需求是什么,再去通过数据、分析、展示,这样才能有的放矢。老板其实不太关心你用了什么复杂的方法做了这个东西,他关心的就是我想要展示什么。
上周我还遇到一个问题。从2015年1月份到2016年6月份整体业绩的达成情况,最初是用柱状图展示折现额,老板说这个东西对我来说没用,因为我更关心的是同期之间的对比。我就只能去改了,其实这就反映一个问题,我们要抓住领导所关心的关键的业务需求。
第二就是数据共享中心的建设,我司目前的系统有很多,包括财务组织系统、还有AGC、ERP的,数据很分散,整体系统是由IT系统管理。我自身在做Tableau所以可视化也在做,我就找到一些接口,它其实并不完备。从总公司的角度来说,不仅要掌握财务数据,还要掌握运营的数据,前端企划的数据,包括风控的数据等。建设数据共享中心就是要把各个数据做一种整合。
其实这就是一个数据字典的问题,我们原来有200多个指标,好多重复的、口径不同的。做数据分析的时候,如果同一个问题有不同的名称、不同的口径,后期根本就干不了。我在入职之前有一个同事做预算的时候就很头大,最简单的一个业务费用,分解到中心子公司之后,从企划或者其他方面拿过来的口径是不同的,需要再反复各处去了解,调整口径的调整。这是分析人员最怵的问题,很耗费精力。
因此我觉得,在工作中一方面就要加强自己对于需求端的理解,不跑偏,少走弯路。第二,如果公司的数据现状不好,你要发挥利用自己的一些知识和整体地推动公司建设,这个推动过程中不仅对公司的管理有很深入的认识,对于数据分析能力的提高也很有帮助。
CDAS 2017 中国数据分析师行业峰会火力全开!
峰会报名
扫码回复“峰会”进群了解活动详情

联系我们
嘉宾及商务合作
王海龙
电话: 13488782942
邮箱: whl@cda.cn
微信: w25092205
票务及渠道合作
王仲谋
电话:18311031693
邮箱:wzm@cda.cn
微信:18311031693
媒体合作
高萌
电话:13611274210
邮箱:gaomeng@cda.cn
微信:13611274210
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据分析、用户运营与业务增长的工作体系中,漏斗拆解是最基础也最高频的问题定位方法。很多业务场景下,我们只能看到最终的转 ...
2026-06-17在数据库开发、数据清洗与报表统计场景中,数值类型转换为日期是高频刚需操作。业务系统常以 Unix 时间戳、整型日期(如20240617 ...
2026-06-17 数据分析师八成以上的时间在和数据表格打交道,但许多人拿到Excel后习惯性地先算、先分析,结果回头发现漏了一列关键数据, ...
2026-06-17【核心关键词】数据库、电商、知识、产品、数据产品、监管业务、产品经理、业务系统、用户行为分析、用户分析、数据分析、电商 ...
2026-06-16在 Python 动态类型与面向对象的编程体系中,变量定义与类实例化是构建代码逻辑的两大核心基石。变量是数据存储、传递与运算的基 ...
2026-06-16 很多数据分析师每天与Excel打交道,但当被问到“表格结构数据和表结构数据有什么区别”“数据类型误判会引发哪些分析错误” ...
2026-06-16在 MySQL 查询性能优化体系中,索引是降低查询耗时、提升数据库吞吐的核心手段。其中联合索引与覆盖索引是实际开发中最高频的两 ...
2026-06-15在数据仓库建设与商业智能分析体系中,维度建模是应用最广泛的建模方法论,而事实表与维度表是维度建模的两大核心构件,共同构成 ...
2026-06-15 很多数据分析师能熟练计算指标,但当被问到“这家企业的核心业务目标是什么”“如何把模糊的战略目标拆解为可量化的指标”“ ...
2026-06-15在数据分析、业务监控、运营复盘等场景中,列值趋势计算是核心需求之一。无论是分析销售额的月度增长、用户活跃的变化趋势、库存 ...
2026-06-12在数字经济深度渗透的当下,消费者的购买行为已从过去的 “被动接受” 转变为 “主动决策”。流量红利消退、获客成本攀升、用户 ...
2026-06-12CDA三级认证是三个级别中的塔尖,全面考察数据战略、团队领导和复杂项目的综合能力。它所对应的《敏捷数据挖掘》教材,不再局限 ...
2026-06-12在游戏产业的商业逻辑中,付费玩家是支撑游戏生存与发展的核心支柱。行业普遍遵循 “二八定律”:20% 的付费玩家贡献了游戏 80% ...
2026-06-11【核心关键词】企业、定位、传统、产品、互联网、可视化、业务侧、数字化、结构化、数据分析、传统制造业、市场状态、发展空间 ...
2026-06-11 解读《CDA二级教材:量化策略分析(2025)》的全景结构与学习逻辑 ” CDA二级认证是企业招聘数据分析师时最常提及的证书门槛 ...
2026-06-11【核心关键词】药企、可视化、营销、分类、数据分析师、销售数据、业务人员、指导方向、分析报告、营销数据、营销医生 【专访摘 ...
2026-06-10在统计学分析、问卷调研、实验验证、业务复盘等场景中,卡方检验与 T 检验是应用最广泛的两类基础假设检验方法。前者专门处理分 ...
2026-06-10 很多数据分析师每天都在计算指标、制作报表,但当被问到“什么叫指标数据元”“指标数据标准包含哪些核心维度”“指标数据质 ...
2026-06-10在MySQL数据库日常查询、数据统计、后台接口开发、数据导出等场景中,开发者经常需要查询数据表除某几列之外的所有字段。例如查 ...
2026-06-09在Python网络请求、爬虫开发、接口测试、数据抓取等实操场景中,requests库是最常用的第三方请求工具,而content属性是requests ...
2026-06-09