
去年的CDAS 2016 第三届中国数据分析师行业峰会上,有一个比较特别的分论坛。这个论坛的嘉宾有些原本并不是业内人士,但经过一段时间的学习,他们成功转型,成为一名数据分析师。他们也有一个共同的身份—— CDA 数据分析师学员。
李运超同学在论坛上分享了自己从一个财会从业者到一名数据分析师的成长历程。本文根据李运超在峰会上的分享整理而成。
大家好!我叫李运超,我目前是在中国人寿保险分公司做分析师,我是CDA第四期的学员,也是刚刚从一个数据分析的学习者变成从业人员。
我以前其实是做财务会计的,在座可能有的人对财务会计有些了解,它和数据分析师中间差别很大。大家会好奇,我是为什么要从财务会计到一个数据分析师呢?
跟大家分享一下我自身思维的转变。我以前是在一个央企做财务会计的,当时负责整个项目,包括会计的核算、税务的管理,整个项目下来大概半年多到一年,通过这份工作对自己大学、研究生的知识有一个充分的应用。但是通过工作会发现,在工作中和你自己想象其实是不太一样的,我个人对于我自身的一个定位始,终是要将我所学到的一些知识应用到企业的管理上,能够发挥自身的一些价值。但是在工作中,我发现其实长期看,我的工作会是一个项目一个项目下去,对一个财务人员来说,跟我的性格不太相符。我想转变,想发挥自己更大的作用。
怎么做呢?当时我刚一开始并没有想一步跨越到数据分析师这个职业上来,当时我是想做偏向于财务预算的,但是在不断地了解过程中,发现我原来上学时,对于工具使用和数据分析方面的知识储备不足,后来我找工作的时候都会提出要求懂一些数据库的东西,当时就感觉蒙了,就不知道自己原来差得这么多。
经过几个月的考量,我最后决定用一段时间去系统地学习一下这个东西,做数据分析相关的工作。这样可以让数据的应用发挥一个更大的价值,而不仅仅是对于一些事务性的简单的处理。就这样,我从一个财务人员逐步地走到了数据分析这个行业里来了。
要做数据分析,我们要学习的东西其实还是很多的,包括一些工具、数据库,还有一些财务统计的知识,以及一些算法。
从工具来说,我们首先会应用到的是Excel。我们在后期应用一些专业的工具进行处理的时候,对于数据的格式还是有要求的,还有数据的拆分。我们所应用到的最基础的工具就是Excel,除了可以数据拆分,还能进行数据分析。
当时我做的一个工作就是将数据产品拆分出来,刚开始我想用SAS进行拆分,我的机子比较老,就带不动,后来我发现Excel可以轻松地搞定。Excel有很多函数,可以进行一对一的匹配。另外,Excel有些数据透视表,对分类的汇总,以及后期把数据带入到工具里面是很有用的;数据透视图,可以做可视化展现的方式。如果你对Excel的VBA再熟悉一些的话,处理数据就很方便了。
另外,学完Excel之后,我又学了STATA和SAS。这些软件相对来说比较菜单化,能够做很多东西,包括一些简单的统计分析,求一下最大值、最小值,中位数,还有可以做一些上学学到的分析检验等。但不仅仅停留在这个层次,数据分析会涉及到包括回归、聚类和分类、时间序列等方法。
比如回归,学的就是一个方程,这是最基本的,其实还可以扩展。它是干什么用的呢?就是对于发生额的预测。比如说一条订单记录会有一些变量,包括性别、年龄、收入等等。通过它其实我们就可以列出一个方程来,预测一个未来值,在我们销售和一个发生值相关的时候,就可以定位。可以把客户分成几类,哪些人属于高价值的客户,哪些人属于相对来说一般的。
还有一个与此相关的逻辑回归,看名字很相似,之所以放到一块是因为它最后的展现形式。不同的是逻辑回归是一个事件的发生概率,这个事情发生不发生,他会不会购买,这是我们常会遇到一个问题。通过逻辑回归就可以根据原有数据归纳出结论。
回归和逻辑回归通常来说都是综合结合来用的,比如说我们把预测出来的金额分成十个档,第一是金额最大的,那么在分析的时候还会有一个问题,这就是种购买金额最高的人,他购买的发生概率是什么?这需要做一个横向的匹配,这样的话我们就会归纳出在实际应用中,发生额和发生概率的排序。我们企业资源都是有限的,在实践应用中我们会根据排序截取前50%的比例,或者20%的比例进行资源投入,这样会获得最大的收益。
聚类和分类,这两个东西看起来很相似,都是跟类别有关系,它们的不同在于聚类是一个无监督学习,分类是一个有监督学习。
聚类是干吗的?我们其实不知道这里边有几类,弄到一堆这就是聚类。这对一些未知领域的探索很有帮助,我们在聚类的时候都会把它规划成一圈,在聚类之前做一个分析。这样的话可以降低纬度,避免一些纬度灾难。
做好了聚类之后下面就可以分类了,比如说可分成三堆,又来了一个东西,看看它跟哪个是一堆的,就分类了。其实我们常用的算法,包括前面提到的逻辑回归,到决策树、神经网络都是可以用来分类的。
还有第三类就是时间序列,炒股的话就会发现股票的价格会随着时间的波动而波动。还有销量,从某种意义上讲时间是有相关性的。
数据并不是直接拿过来就能用。更多的情况下,企业会把数据放在数据库,量大的话还会放在数据仓库里面。我在面试的时候遇到的两个常见的问题,第一个你为什么会做数据分析师,另外一个就是你的数据库应用能力。数据库的接收是不需要掌握的,主要是数据库的查询,数据库里面各种资料的认识是必须要具备的,我们常用的一个整体查询就是各种字段,从哪个表分类一下,分类端再做一个排序,一般都会涉及到多张表。
对于数据库这块还是要多掌握一些知识。常用的数据库都是关系型数据库,如果有能力非关系型数据库还是要多学习一下,还没有工作的同学可以把精力投入一些,找工作数据库不行的话就直接被Pass掉了。
除了数据分析的工具,也懂数据库,在数据分析里边还有一些内在的思想,包括一些传统的统计方法,还有算法。算法很多,因为时间有限,我不打算多讲。逻辑回归、决策树、神经网络都可以学一下,这些算法有一些是常用的和非常用的,有些是针对同一个问题有不同的角度,如果时间有限的话,可以专精于某一类。不管是做回归,还是做分类、聚类,你可以挑一两个算法进行研究,算法研究精了之后对数据分析可以有很深刻的理解。
下边一个问题是数据的可视化的问题。不管你是用了回归还是聚类,最后一个问题就是展现,展现给你们的Boss你到底做了什么?不见得要展示你的成果,更多的是对于企业里面的各种信息的生动展示。
我个人用得多的是Excel和Tableau,我们从集团到各个下面的子公司都在用这个东西。我觉得在数据可视化这一块要遵循两点,第一点就是化繁为简。我们每个月报给最高层有一份报告是50多页,当时我看了都头大。最后我们同事之间大家相互协作,把50多页的东西弄成了9页,它的纬度却可以细化到中层子公司。不要再把一堆Excel表、PPT拿出来了,那样就很Low了,你要想到的第一个问题如何将你的大量的工作成果展现在很少的一个界面上。
第二带你就是直观。最简单的,比如在Excel里用数据透视图,做一个柱状图和一个线,反映未来的趋势,或者横向的对比,都是一个直观的展现,你能做到化繁为简、深入浅出,你的可视化是很成功的。
说了这么多,我们最终还是要有一个系统的数据应用。
第一步是获取数据,数据的来源很多,包括Excel表、数据库,还有通过其他的一些网上的抓取,包括爬虫、网络分析等。
第二步是处理数据。在我实际的工作中,包括我与其他同行沟通,数据处理的过程可以占到整个工作任务的将近70%多。为什么呢?数据价值的认知是一个逐步完善的过程,很多企业原先对于数据的认识没那么强,可能就是某个部门,比如企划、风控、运营等部门,会把数据库里面有关的数据拿出来,自己做报告。现在又上升到一个更高的层次,做数据分析、数据可视化的时候,就发现数据乱七八糟,看了之后就头大,就需要通过各种工具,用SAS,Python进行整理,一方面把数据整理成自己需要的形式,整理成一定的字段和纬度,这样才可以做分析。
其实目前我在工作的这一段时间中并没有用到很复杂的算法,应用的主要是三个方面。
第一,我会用Python、Tableau对数据进行处理。我和同事进行了反复的沟通,不断地了解这些高层人员到底想看什么,我按照自身的理解把它展示出来,后来老板说这个东西没有把核心的需求拿出来。
这其实就犯了一个毛病,我在刚一开始的需求分析就不够深入。其实也是可以理解的,因为刚一开始接触工作,对于整个行业也是一个初步的认识,你可能拿捏不好。随着业务的逐步深入,你首先要了解你这个业务整体老板的需求是什么,再去通过数据、分析、展示,这样才能有的放矢。老板其实不太关心你用了什么复杂的方法做了这个东西,他关心的就是我想要展示什么。
上周我还遇到一个问题。从2015年1月份到2016年6月份整体业绩的达成情况,最初是用柱状图展示折现额,老板说这个东西对我来说没用,因为我更关心的是同期之间的对比。我就只能去改了,其实这就反映一个问题,我们要抓住领导所关心的关键的业务需求。
第二就是数据共享中心的建设,我司目前的系统有很多,包括财务组织系统、还有AGC、ERP的,数据很分散,整体系统是由IT系统管理。我自身在做Tableau所以可视化也在做,我就找到一些接口,它其实并不完备。从总公司的角度来说,不仅要掌握财务数据,还要掌握运营的数据,前端企划的数据,包括风控的数据等。建设数据共享中心就是要把各个数据做一种整合。
其实这就是一个数据字典的问题,我们原来有200多个指标,好多重复的、口径不同的。做数据分析的时候,如果同一个问题有不同的名称、不同的口径,后期根本就干不了。我在入职之前有一个同事做预算的时候就很头大,最简单的一个业务费用,分解到中心子公司之后,从企划或者其他方面拿过来的口径是不同的,需要再反复各处去了解,调整口径的调整。这是分析人员最怵的问题,很耗费精力。
因此我觉得,在工作中一方面就要加强自己对于需求端的理解,不跑偏,少走弯路。第二,如果公司的数据现状不好,你要发挥利用自己的一些知识和整体地推动公司建设,这个推动过程中不仅对公司的管理有很深入的认识,对于数据分析能力的提高也很有帮助。
CDAS 2017 中国数据分析师行业峰会火力全开!
峰会报名
扫码回复“峰会”进群了解活动详情
联系我们
嘉宾及商务合作
王海龙
电话: 13488782942
邮箱: whl@cda.cn
微信: w25092205
票务及渠道合作
王仲谋
电话:18311031693
邮箱:wzm@cda.cn
微信:18311031693
媒体合作
高萌
电话:13611274210
邮箱:gaomeng@cda.cn
微信:13611274210
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在 “神经网络与卡尔曼滤波融合” 的理论基础上,Python 凭借其丰富的科学计算库(NumPy、FilterPy)、深度学习框架(PyTorch、T ...
2025-10-23在工业控制、自动驾驶、机器人导航、气象预测等领域,“状态估计” 是核心任务 —— 即从含噪声的观测数据中,精准推断系统的真 ...
2025-10-23在数据分析全流程中,“数据清洗” 恰似烹饪前的食材处理:若食材(数据)腐烂变质、混杂异物(脏数据),即便拥有精湛的烹饪技 ...
2025-10-23在人工智能领域,“大模型” 已成为近年来的热点标签:从参数超 1750 亿的 GPT-3,到万亿级参数的 PaLM,再到多模态大模型 GPT-4 ...
2025-10-22在 MySQL 数据库的日常运维与开发中,“更新数据是否会影响读数据” 是一个高频疑问。这个问题的答案并非简单的 “是” 或 “否 ...
2025-10-22在企业数据分析中,“数据孤岛” 是制约分析深度的核心瓶颈 —— 用户数据散落在注册系统、APP 日志、客服记录中,订单数据分散 ...
2025-10-22在神经网络设计中,“隐藏层个数” 是决定模型能力的关键参数 —— 太少会导致 “欠拟合”(模型无法捕捉复杂数据规律,如用单隐 ...
2025-10-21在特征工程流程中,“单变量筛选” 是承上启下的关键步骤 —— 它通过分析单个特征与目标变量的关联强度,剔除无意义、冗余的特 ...
2025-10-21在数据分析全流程中,“数据读取” 常被误解为 “简单的文件打开”—— 双击 Excel、执行基础 SQL 查询即可完成。但对 CDA(Cert ...
2025-10-21在实际业务数据分析中,我们遇到的大多数数据并非理想的正态分布 —— 电商平台的用户消费金额(少数用户单次消费上万元,多数集 ...
2025-10-20在数字化交互中,用户的每一次操作 —— 从电商平台的 “浏览商品→加入购物车→查看评价→放弃下单”,到内容 APP 的 “点击短 ...
2025-10-20在数据分析的全流程中,“数据采集” 是最基础也最关键的环节 —— 如同烹饪前需备好新鲜食材,若采集的数据不完整、不准确或不 ...
2025-10-20在数据成为新时代“石油”的今天,几乎每个职场人都在焦虑: “为什么别人能用数据驱动决策、升职加薪,而我面对Excel表格却无从 ...
2025-10-18数据清洗是 “数据价值挖掘的前置关卡”—— 其核心目标是 “去除噪声、修正错误、规范格式”,但前提是不破坏数据的真实业务含 ...
2025-10-17在数据汇总分析中,透视表凭借灵活的字段重组能力成为核心工具,但原始透视表仅能呈现数值结果,缺乏对数据背景、异常原因或业务 ...
2025-10-17在企业管理中,“凭经验定策略” 的传统模式正逐渐失效 —— 金融机构靠 “研究员主观判断” 选股可能错失收益,电商靠 “运营拍 ...
2025-10-17在数据库日常操作中,INSERT INTO SELECT是实现 “批量数据迁移” 的核心 SQL 语句 —— 它能直接将一个表(或查询结果集)的数 ...
2025-10-16在机器学习建模中,“参数” 是决定模型效果的关键变量 —— 无论是线性回归的系数、随机森林的树深度,还是神经网络的权重,这 ...
2025-10-16在数字化浪潮中,“数据” 已从 “辅助决策的工具” 升级为 “驱动业务的核心资产”—— 电商平台靠用户行为数据优化推荐算法, ...
2025-10-16在大模型从实验室走向生产环境的过程中,“稳定性” 是决定其能否实用的关键 —— 一个在单轮测试中表现优异的模型,若在高并发 ...
2025-10-15