京公网安备 11010802034615号
经营许可证编号:京B2-20210330
不少人认为从学校毕业,进入工作岗位后学习数据分析能力是一件很痛苦的事。其实如果方法得当,工作中学习数据分析反而可以得到事半功倍的效果。本篇中介绍一个PACS(流程(Process)、动作(Action)、能力(Competence)、技能(Skill))数据分析能力提升法。
以下是信用贷款业务风控人员的技能映射。
在学校中,知识以学科的形式组织,我们也是按照学科来学习的。每一个学科就像一个竖井(“I“型),学的越深,知识面越狭窄。由于知识是以该学科的研究范式为基础进行组织的,而且缺乏对其商业应用场景的背景介绍,因此学习过程枯燥,效率低。
当前商业中需要复合型的“π“型人才,即精通两三个主要技能的同时,还要了解整个业务流程,可以与其他岗位的人无障碍沟通。全面的学习整个业务流程涉及到的全部技能需要大量的时间和精力,因此可以采用PACS方法,从梳理整个业务流程和每个结点包括的动作开始(这些内容往往已经有人做过,并且发布出来),进而明确每个节点中完成必要动作所需要的数据和算法能力(这相当于细化后的岗位人员能力说明,以往公司的岗位认知能力说明书不太强调数据和算法能力,因此需要细化),最后将能力映射到技能。这样学习目标明确、路径清晰。
从静态上抽象一家企业,则是实体-关系的总和,即构成了企业数据模型。从动态上抽象一家企业,则是流程的总和,即构成了企业业务流程模型。企业流程按职能类别分为战略管理类流程、人力资源管理类流程、财务管理类流程等等,职能流程常不就是单独运行,而就是相互穿插结合在一起的。所以企业的流程管理,常以层级的流程建立与运行管理为主,将各职能的工作任务按层级分开后,已完成任务目标为主,进行互相穿插结合。下图是国际组织APQC(美国生产力质量中心)给出的流程层级结构参考模型。
国内的实践者在APQC的基础上进行了优化,分为四个层级:一级核心流程(域)、二级协控流程(流程组)、三级自控流程(流程)、四级标准作业流程(活动和任务)。按层级管理的流程,常以承担该流程主要职责部门为主管部门,其他部门为协助部门展开流程活动。比如预算流程,就是涉及企业所有部门及企业外部状况的管理流程,就是一级流程,但以解决与控制财务行为为主,就以财务部门为主管部门,其他部门为辅助,共同协作展开预算与成本控制活动。
一级核心流程代表企业中最高层次的流程,是价值链图的构成。这类流程的操作往往与企业高级管理人员相关,就是企业与外界环境之间信息的交换与工作交接,流程运行一般都会涉及企业的大多数部门。如果就是集团型企业或者有很多分支机构的企业,一级流程还包括集团与各分支管理机构之间的信息交换与工作交接。如经营管理流程,既考虑市场变化、政策变化、经济发展趋势,还考虑内部管理基础,以及各部门的任务分解与执行反馈等工作。
二级流程基本上就是规范企业内部工作任务流转的程序,就是涉及不同部门间信息交换与工作交接的管理流程。如采购管理流程,就是从物品需求部门提出采购要求,到采购部门完成采购工作,交接到仓储部门管理采购的物品,再将采购入库的信息传递到物品需求部门。这个流程就相对一级流程要短一些,牵涉的面不就是很大,关联的部门也不就是很多。
三级流程基本上就是一个大的职能部门内部工作执行的步骤,或倾向于中基层管理任务跨部门执行的流程。比如生产管理流程,就是生产部门从生产计划到生产产品入库的一个过程,虽然也关联到很多部门,比如需要物料采购、设备安装调试、工装管理、生产技术支持等,但就生产操作的过程来说,基本上就就是生产部门可以自主控制与管理任务流转的过程。
四级流程基本上就是基于岗位操作,为完成岗位作业所需的操作步骤。如设备清洁,井站巡回检查,原油计量等。还有一些企业,因为管理的层级关系,对三级流程任务流转的部分环节,还要进一步的细分,就会形成很多更为细致的操作规程。
以上只是对流程的简要介绍,有兴趣的读者可以看一下“顾问老包“的公众号文章“流程如何实现战略落地” (https://mp.weixin.qq.com/s/jETYFBvjAnD9x1-McVM6QQ)和“解说:流程的层级结构”(https://mp.weixin.qq.com/s/Shxcb94AGLny77ryyENk-g)。这个网页“http://www.woshipm.com/pd/80096.html “对流程和用例也进行了论述。也可以使用”https://www.processon.com“网站提供的流程绘制工具,里面提供了一些示例。
流程中会出现顺承、分枝、循环三类结构,其中分枝和循环都涉及到判断结点,判断结点后是某个动作。比如在产成品入库流程中,如果产品抽样合格,则允许入库;在客户申请贷款额度的流程中,如果客户信用评级没有达到准入要求,则驳回客户的申请,并且向客户解释未通过的原因。如下图所示,红色圈出的部分就是审批流程中的一个决策节点。
流程中的动作是企业中特定岗位的人员做出的标准动作。做动作需要依据经验或者数据做出判断的能力。
为了保证在业务流程中做出的决策是正确的,其后续的动作不会对企业造成不良影响,那就需要工作者具有特定的能力。能力是随着技术、文化等环境要素在发生变化。以往由于信贷审批进件少,审批人员只需要人力阅读尽调材料,结合经验判断客户是否准入即可。随着申请量的提升,信贷审批人员产能达不到要求时,便使用量化信用评分模型替代部分的人力劳动,在构建信用评分模型的过程中,需要具有指标计算、标签加工、算法建模、模型管理的能力。
技能对应到具体的知识领域。很多人学习知识的时候,往往喜欢从基础知识开始学习。比如有人说学习统计学必然需要有概率论的基础,学习机器学习必然需要有线性代数的基础。其实这是误区,因为人的精力和热情是有限的。在工作岗位中学习一个知识,往往需要在短期内就要产生价值。如果从基础知识开始看,大部分人是“从入门到放弃“。
在学习技能的过程中,建议从每个知识的假设开始入手,搞清楚该算法的创始人加入这些假设的原因,而不是沉迷于大量的数学推导证明。使用这个方法,读者会发现,做数据分析并不需要高深的数据知识,而是需要对社会、心理和经济现象的理解。
比如学习线性回归模型,有4个经典假设,分别是:1、解释变量和被解释变量是线性关系;2、解释变量与扰动项独立;3、扰动项独立同分布,且服从正态分布;4、解释变量不存在强线性关系。这些假设的存在是因为该方法第一次用于根据父母的身高预测其孩子的身高,其数据特征满足以上4条假设,且该模型具有最优线性无偏估计(BLUE)。当回归模型的入模数据不满足以上4条假设时,便不再是最优线性无偏估计。其实只要深刻理解和记住以上4条假设并且掌握如果数据不满足以上假设时如何做调整即可。至于最小二乘法或极大似然法的推导过程,在实际工作中是毫无意义。有些读者看到这里,可能会质疑这是不是在培养“调包侠“。其实懂算法建模原理不一定需要精通算法的数学推导,而建模流程和建模工艺更重要,目的是制作出高质量的算法模型供业务使用。
不建议从基础知识开始学习,还有一个深层次的原因,因为高校中的书其实并不是以让人学会为目的的,而是以体现作者学科功底为目的的,也就是说其实教科书是作者为了“装高雅”而写的。这个认识初始于十五年前在考研培训机构听一位“外行”高数大师讲考研高数时说的“我的教案写了两个版本,一个版本是结合这几年的实际工作经验总结的,另外一个版本是根据研究范式严格推导出来的,第二本没想让你们看懂。之所要做出第二个本版,是为了得到同行的认可”。后来在学习逻辑回归这个算法时,分别在多元统计、机器学习和社会统计学这三门课中学过三次,一开始被多元统计学中的极大似然估计方法做折服,但是总是想不明白罗吉斯特分布是这样被神人发现;后来在机器学习课上又被交叉熵损失函数的优美推导而倾倒,感觉我等凡人必定想不出如此简介的框架。直到在社会统计学中,老师并没有让我们按照教材来学习,而是阅读统计学中的早期文献,我才了解到在预测二分类目标时,经历过线性回归、线性概率模型,最后想出的Logit转换,无非是为了使得方程两边的定义域一致,凑出来的。不过国内教材中从实际工作应用讲解数据分析和算法的书太少了。因此只好退而求其次,建议大家工作中用到什么知识,直接采用“降落伞“式学习即可,未来有时间了再打基础。
来源:数据资管
作者:研究猿
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在 MySQL 实际应用中,“频繁写入同一表” 是常见场景 —— 如实时日志存储(用户操作日志、系统运行日志)、高频交易记录(支付 ...
2025-10-30为帮助教育工作者、研究者科学分析 “班级规模” 与 “平均成绩” 的关联关系,我将从相关系数的核心定义与类型切入,详解 “数 ...
2025-10-30对 CDA(Certified Data Analyst)数据分析师而言,“相关系数” 不是简单的数字计算,而是 “从业务问题出发,量化变量间关联强 ...
2025-10-30在构建前向神经网络(Feedforward Neural Network,简称 FNN)时,“隐藏层数目设多少?每个隐藏层该放多少个神经元?” 是每个 ...
2025-10-29这个问题切中了 Excel 用户的常见困惑 —— 将 “数据可视化工具” 与 “数据挖掘算法” 的功能边界混淆。核心结论是:Excel 透 ...
2025-10-29在 CDA(Certified Data Analyst)数据分析师的工作中,“多组数据差异验证” 是高频需求 —— 例如 “3 家门店的销售额是否有显 ...
2025-10-29在数据分析中,“正态分布” 是许多统计方法(如 t 检验、方差分析、线性回归)的核心假设 —— 数据符合正态分布时,统计检验的 ...
2025-10-28箱线图(Box Plot)作为展示数据分布的核心统计图表,能直观呈现数据的中位数、四分位数、离散程度与异常值,是质量控制、实验分 ...
2025-10-28在 CDA(Certified Data Analyst)数据分析师的工作中,“分类变量关联分析” 是高频需求 —— 例如 “用户性别是否影响支付方式 ...
2025-10-28在数据可视化领域,单一图表往往难以承载多维度信息 —— 力导向图擅长展现节点间的关联结构与空间分布,却无法直观呈现 “流量 ...
2025-10-27这个问题问到了 Tableau 中两个核心行级函数的经典组合,理解它能帮你快速实现 “相对位置占比” 的分析需求。“index ()/size ( ...
2025-10-27对 CDA(Certified Data Analyst)数据分析师而言,“假设检验” 绝非 “套用统计公式的机械操作”,而是 “将模糊的业务猜想转 ...
2025-10-27在数字化运营中,“凭感觉做决策” 早已成为过去式 —— 运营指标作为业务增长的 “晴雨表” 与 “导航仪”,直接决定了运营动作 ...
2025-10-24在卷积神经网络(CNN)的训练中,“卷积层(Conv)后是否添加归一化(如 BN、LN)和激活函数(如 ReLU、GELU)” 是每个开发者都 ...
2025-10-24在数据决策链条中,“统计分析” 是挖掘数据规律的核心,“可视化” 是呈现规律的桥梁 ——CDA(Certified Data Analyst)数据分 ...
2025-10-24在 “神经网络与卡尔曼滤波融合” 的理论基础上,Python 凭借其丰富的科学计算库(NumPy、FilterPy)、深度学习框架(PyTorch、T ...
2025-10-23在工业控制、自动驾驶、机器人导航、气象预测等领域,“状态估计” 是核心任务 —— 即从含噪声的观测数据中,精准推断系统的真 ...
2025-10-23在数据分析全流程中,“数据清洗” 恰似烹饪前的食材处理:若食材(数据)腐烂变质、混杂异物(脏数据),即便拥有精湛的烹饪技 ...
2025-10-23在人工智能领域,“大模型” 已成为近年来的热点标签:从参数超 1750 亿的 GPT-3,到万亿级参数的 PaLM,再到多模态大模型 GPT-4 ...
2025-10-22在 MySQL 数据库的日常运维与开发中,“更新数据是否会影响读数据” 是一个高频疑问。这个问题的答案并非简单的 “是” 或 “否 ...
2025-10-22