
不少人认为从学校毕业,进入工作岗位后学习数据分析能力是一件很痛苦的事。其实如果方法得当,工作中学习数据分析反而可以得到事半功倍的效果。本篇中介绍一个PACS(流程(Process)、动作(Action)、能力(Competence)、技能(Skill))数据分析能力提升法。
以下是信用贷款业务风控人员的技能映射。
在学校中,知识以学科的形式组织,我们也是按照学科来学习的。每一个学科就像一个竖井(“I“型),学的越深,知识面越狭窄。由于知识是以该学科的研究范式为基础进行组织的,而且缺乏对其商业应用场景的背景介绍,因此学习过程枯燥,效率低。
当前商业中需要复合型的“π“型人才,即精通两三个主要技能的同时,还要了解整个业务流程,可以与其他岗位的人无障碍沟通。全面的学习整个业务流程涉及到的全部技能需要大量的时间和精力,因此可以采用PACS方法,从梳理整个业务流程和每个结点包括的动作开始(这些内容往往已经有人做过,并且发布出来),进而明确每个节点中完成必要动作所需要的数据和算法能力(这相当于细化后的岗位人员能力说明,以往公司的岗位认知能力说明书不太强调数据和算法能力,因此需要细化),最后将能力映射到技能。这样学习目标明确、路径清晰。
从静态上抽象一家企业,则是实体-关系的总和,即构成了企业数据模型。从动态上抽象一家企业,则是流程的总和,即构成了企业业务流程模型。企业流程按职能类别分为战略管理类流程、人力资源管理类流程、财务管理类流程等等,职能流程常不就是单独运行,而就是相互穿插结合在一起的。所以企业的流程管理,常以层级的流程建立与运行管理为主,将各职能的工作任务按层级分开后,已完成任务目标为主,进行互相穿插结合。下图是国际组织APQC(美国生产力质量中心)给出的流程层级结构参考模型。
国内的实践者在APQC的基础上进行了优化,分为四个层级:一级核心流程(域)、二级协控流程(流程组)、三级自控流程(流程)、四级标准作业流程(活动和任务)。按层级管理的流程,常以承担该流程主要职责部门为主管部门,其他部门为协助部门展开流程活动。比如预算流程,就是涉及企业所有部门及企业外部状况的管理流程,就是一级流程,但以解决与控制财务行为为主,就以财务部门为主管部门,其他部门为辅助,共同协作展开预算与成本控制活动。
一级核心流程代表企业中最高层次的流程,是价值链图的构成。这类流程的操作往往与企业高级管理人员相关,就是企业与外界环境之间信息的交换与工作交接,流程运行一般都会涉及企业的大多数部门。如果就是集团型企业或者有很多分支机构的企业,一级流程还包括集团与各分支管理机构之间的信息交换与工作交接。如经营管理流程,既考虑市场变化、政策变化、经济发展趋势,还考虑内部管理基础,以及各部门的任务分解与执行反馈等工作。
二级流程基本上就是规范企业内部工作任务流转的程序,就是涉及不同部门间信息交换与工作交接的管理流程。如采购管理流程,就是从物品需求部门提出采购要求,到采购部门完成采购工作,交接到仓储部门管理采购的物品,再将采购入库的信息传递到物品需求部门。这个流程就相对一级流程要短一些,牵涉的面不就是很大,关联的部门也不就是很多。
三级流程基本上就是一个大的职能部门内部工作执行的步骤,或倾向于中基层管理任务跨部门执行的流程。比如生产管理流程,就是生产部门从生产计划到生产产品入库的一个过程,虽然也关联到很多部门,比如需要物料采购、设备安装调试、工装管理、生产技术支持等,但就生产操作的过程来说,基本上就就是生产部门可以自主控制与管理任务流转的过程。
四级流程基本上就是基于岗位操作,为完成岗位作业所需的操作步骤。如设备清洁,井站巡回检查,原油计量等。还有一些企业,因为管理的层级关系,对三级流程任务流转的部分环节,还要进一步的细分,就会形成很多更为细致的操作规程。
以上只是对流程的简要介绍,有兴趣的读者可以看一下“顾问老包“的公众号文章“流程如何实现战略落地” (https://mp.weixin.qq.com/s/jETYFBvjAnD9x1-McVM6QQ)和“解说:流程的层级结构”(https://mp.weixin.qq.com/s/Shxcb94AGLny77ryyENk-g)。这个网页“http://www.woshipm.com/pd/80096.html “对流程和用例也进行了论述。也可以使用”https://www.processon.com“网站提供的流程绘制工具,里面提供了一些示例。
流程中会出现顺承、分枝、循环三类结构,其中分枝和循环都涉及到判断结点,判断结点后是某个动作。比如在产成品入库流程中,如果产品抽样合格,则允许入库;在客户申请贷款额度的流程中,如果客户信用评级没有达到准入要求,则驳回客户的申请,并且向客户解释未通过的原因。如下图所示,红色圈出的部分就是审批流程中的一个决策节点。
流程中的动作是企业中特定岗位的人员做出的标准动作。做动作需要依据经验或者数据做出判断的能力。
为了保证在业务流程中做出的决策是正确的,其后续的动作不会对企业造成不良影响,那就需要工作者具有特定的能力。能力是随着技术、文化等环境要素在发生变化。以往由于信贷审批进件少,审批人员只需要人力阅读尽调材料,结合经验判断客户是否准入即可。随着申请量的提升,信贷审批人员产能达不到要求时,便使用量化信用评分模型替代部分的人力劳动,在构建信用评分模型的过程中,需要具有指标计算、标签加工、算法建模、模型管理的能力。
技能对应到具体的知识领域。很多人学习知识的时候,往往喜欢从基础知识开始学习。比如有人说学习统计学必然需要有概率论的基础,学习机器学习必然需要有线性代数的基础。其实这是误区,因为人的精力和热情是有限的。在工作岗位中学习一个知识,往往需要在短期内就要产生价值。如果从基础知识开始看,大部分人是“从入门到放弃“。
在学习技能的过程中,建议从每个知识的假设开始入手,搞清楚该算法的创始人加入这些假设的原因,而不是沉迷于大量的数学推导证明。使用这个方法,读者会发现,做数据分析并不需要高深的数据知识,而是需要对社会、心理和经济现象的理解。
比如学习线性回归模型,有4个经典假设,分别是:1、解释变量和被解释变量是线性关系;2、解释变量与扰动项独立;3、扰动项独立同分布,且服从正态分布;4、解释变量不存在强线性关系。这些假设的存在是因为该方法第一次用于根据父母的身高预测其孩子的身高,其数据特征满足以上4条假设,且该模型具有最优线性无偏估计(BLUE)。当回归模型的入模数据不满足以上4条假设时,便不再是最优线性无偏估计。其实只要深刻理解和记住以上4条假设并且掌握如果数据不满足以上假设时如何做调整即可。至于最小二乘法或极大似然法的推导过程,在实际工作中是毫无意义。有些读者看到这里,可能会质疑这是不是在培养“调包侠“。其实懂算法建模原理不一定需要精通算法的数学推导,而建模流程和建模工艺更重要,目的是制作出高质量的算法模型供业务使用。
不建议从基础知识开始学习,还有一个深层次的原因,因为高校中的书其实并不是以让人学会为目的的,而是以体现作者学科功底为目的的,也就是说其实教科书是作者为了“装高雅”而写的。这个认识初始于十五年前在考研培训机构听一位“外行”高数大师讲考研高数时说的“我的教案写了两个版本,一个版本是结合这几年的实际工作经验总结的,另外一个版本是根据研究范式严格推导出来的,第二本没想让你们看懂。之所要做出第二个本版,是为了得到同行的认可”。后来在学习逻辑回归这个算法时,分别在多元统计、机器学习和社会统计学这三门课中学过三次,一开始被多元统计学中的极大似然估计方法做折服,但是总是想不明白罗吉斯特分布是这样被神人发现;后来在机器学习课上又被交叉熵损失函数的优美推导而倾倒,感觉我等凡人必定想不出如此简介的框架。直到在社会统计学中,老师并没有让我们按照教材来学习,而是阅读统计学中的早期文献,我才了解到在预测二分类目标时,经历过线性回归、线性概率模型,最后想出的Logit转换,无非是为了使得方程两边的定义域一致,凑出来的。不过国内教材中从实际工作应用讲解数据分析和算法的书太少了。因此只好退而求其次,建议大家工作中用到什么知识,直接采用“降落伞“式学习即可,未来有时间了再打基础。
来源:数据资管
作者:研究猿
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
基于 SPSS 的 ROC 曲线平滑调整方法与实践指南 摘要 受试者工作特征曲线(ROC 曲线)是评估诊断模型或预测指标效能的核心工具, ...
2025-08-25神经网络隐藏层神经元个数的确定方法与实践 摘要 在神经网络模型设计中,隐藏层神经元个数的确定是影响模型性能、训练效率与泛 ...
2025-08-25CDA 数据分析师与数据思维:驱动企业管理升级的核心力量 在数字化浪潮席卷全球的当下,数据已成为企业继人力、物力、财力之后的 ...
2025-08-25CDA数据分析师与数据指标:基础概念与协同逻辑 一、CDA 数据分析师:数据驱动时代的核心角色 1.1 定义与行业价值 CDA(Certified ...
2025-08-22Power Query 移动加权平均计算 Power Query 移动加权平均设置全解析:从原理到实战 一、移动加权平均法的核心逻辑 移动加权平均 ...
2025-08-22描述性统计:CDA数据分析师的基础核心与实践应用 一、描述性统计的定位:CDA 认证的 “入门基石” 在 CDA(Certified Data Analy ...
2025-08-22基于 Python response.text 的科技新闻数据清洗去噪实践 在通过 Python requests 库的 response.text 获取 API 数据后,原始数据 ...
2025-08-21基于 Python response.text 的科技新闻综述 在 Python 网络爬虫与 API 调用场景中,response.text 是 requests 库发起请求后获取 ...
2025-08-21数据治理新浪潮:CDA 数据分析师的战略价值与驱动逻辑 一、数据治理的多维驱动引擎 在数字经济与人工智能深度融合的时代,数据治 ...
2025-08-21Power BI 热力地图制作指南:从数据准备到实战分析 在数据可视化领域,热力地图凭借 “直观呈现数据密度与分布趋势” 的核心优势 ...
2025-08-20PyTorch 矩阵运算加速库:从原理到实践的全面解析 在深度学习领域,矩阵运算堪称 “计算基石”。无论是卷积神经网络(CNN)中的 ...
2025-08-20数据建模:CDA 数据分析师的核心驱动力 在数字经济浪潮中,数据已成为企业决策的核心资产。CDA(Certified Data Analyst)数据分 ...
2025-08-20KS 曲线不光滑:模型评估的隐形陷阱,从原因到破局的全指南 在分类模型(如风控违约预测、电商用户流失预警、医疗疾病诊断)的评 ...
2025-08-20偏态分布:揭开数据背后的非对称真相,赋能精准决策 在数据分析的世界里,“正态分布” 常被视为 “理想模型”—— 数据围绕均值 ...
2025-08-19CDA 数据分析师:数字化时代的价值创造者与决策智囊 在数据洪流席卷全球的今天,“数据驱动” 已从企业战略口号落地为核心 ...
2025-08-19CDA 数据分析师:善用 Power BI 索引列,提升数据处理与分析效率 在 Power BI 数据分析流程中,“数据准备” 是决定后续分析质量 ...
2025-08-18CDA 数据分析师:巧用 SQL 多个聚合函数,解锁数据多维洞察 在企业数据分析场景中,单一维度的统计(如 “总销售额”“用户总数 ...
2025-08-18CDA 数据分析师:驾驭表格结构数据的核心角色与实践应用 在企业日常数据存储与分析场景中,表格结构数据(如 Excel 表格、数据库 ...
2025-08-18PowerBI 累计曲线制作指南:从 DAX 度量到可视化落地 在业务数据分析中,“累计趋势” 是衡量业务进展的核心视角 —— 无论是 “ ...
2025-08-15Python 函数 return 多个数据:用法、实例与实战技巧 在 Python 编程中,函数是代码复用与逻辑封装的核心载体。多数场景下,我们 ...
2025-08-15