京公网安备 11010802034615号
经营许可证编号:京B2-20210330
八个步骤让你的企业全面“数据化”
什么样的企业可以称得上是大数据企业呢?恐怕没有人能够给出一个完美的答案。但是,直观地,我们可能觉得Google
更像是一个大数据的企业,阿里巴巴也像是一个大数据的企业,而中国银行似乎不太像一个大数据的企业,尽管它每天也一样浸泡在海量的数据中。除了具有处理大量数据的能力外,之所以Google
和阿里巴巴更像大数据的企业,是因为他们有深入的数据分析工具,利用数据分析的结果直接指导决策,而且经常推出基于数据分析的创新型应用,这还不包括类似于AlphaGo
这样的奇葩。
这是我第三次以文字的形式谈论如何成为一个大数据企业。一是很早以前在“科学网”上写的一篇博客,二是为一本名为Code Halos
的书写的序言。这个版本可以看作是上两个版本的补充和扩充,同时也是本书一些重点内容的重述(为了保证本文的独立性,可以不依赖本书直接阅读,少量书中给出过的文献和注释在本文中重复出现了)。然而遗憾的是,并没有一条放之四海皆准的通往大数据企业的康庄大道,更没有点石成金之术可以让一个企业快速Google化。这篇结束语只是提出一些看得见摸得着的建议,藏在这些建议背后的大数据理念,或许更加重要。
尽管我是用Step1、Step2
这样的说法来列举成为大数据企业的措施,但是这些步骤之间并没有严格的逻辑上谁决定谁或者时间上谁先谁后的关系。举个例子来说,最好的办法当然是先有了数据标准再整理采集数据,这样可以不走任何弯路,但实际上完全没有数据,企业不会有动力做标准建设,做出来的标准也可能是纸上谈兵,完全不实用。又比如,数据管理平台的建设能够帮助更好地进行全面数据化,但实际上它多半是全面数据化战略进行了一定程度之后才开始启动建设的。总体来说,写在更前面位置的,是更基础的,但是没有绝对的依赖关系。

Step 1.
全面数据化
“数据化”浪潮是整个大数据时代的起点,它强调数据就是资产,记录一切可以记录的数据,并相信这些数据一定会在某一天产生巨大的价值。显然,数据化是一个企业能够通过深入数据分析,实现自身优化的基础。
我去长虹集团调研的时候,他们告诉我,长虹电器在自己的生产线上,通过大量传感器,记录生产环境的温度、湿度、粉尘度、振动强度和噪音强度,等等,通过这些量化指标与产品质量的关联分析,得到影响产品优品率和良品率的关键因素,再进一步通过控制环境因素,明显提高了产品的优品率。企业在日常的经营管理过程中,通过办公自动化系统(OA系统),很多内部即时通讯、邮件往来、工作分配和业务文件上传下载等日志数据都被记录下来了。这些数据就是宝贵的财富!我们通过对这些数据的分析,能够更精确地预测员工的离职率和升职率,更精确地预测员工和部门的绩效水平,帮助企业员工通过基于关联用户和文本智能匹配快速找到对自己现有业务和客户有参考价值的案例和文件,等等。但是这些提升,都是建立在企业拥有相应数据的基础上。
总的来说,全面数据化要求企业采集并存储企业生产经营中的一切数据,形成企业数据资产的概念。
Step 2. 整理数据资源,建立数据标准,形成管理规范
很多企业已经有了一些数据储备,或者通过第一步,开始快速积累了一些数据。但是企业管理层,尤其是跨业态拥有多家子公司的集团运营的企业,一般而言,对于自己到底有哪些数据资源是没有清晰认识的,更拿不出一张较完备的数据目录。
企业要做的第一步,就是通过自顶向下的方式,成立数据委员会,在有必要的时候借助外部合作方的帮助,进行全面的数据调研,了解数据资源的整体情况并建立数据资源情况更新的流程和规范。
数据资源最基本的呈现方式是一个数据目录,我认为,企业管理团队至少要掌握整个企业数据的3级目录,而企业的主要技术团队应该掌握到4级目录。但数据资源又不仅仅是数据目录,因为还涉及到每一个数据项的完备性、更新程度、有效性和噪音源等描述。掌握了数据资源后,企业要根据自己业务发展的需求,建立数据标准,使现有数据和未来所有的新增数据都能够在同一个标准下统一管理,避免“信息系统建设越多,未来数据整合越难”的困境。业务中涉及大量数据的企业,尤其是涉及到用户隐私数据、国家安全数据和具有重要商业价值数据的企业,要形成数据全流程管理的规范,因为绝大部分数据隐私和数据安全的事件,都不是从外部由黑客或者敌方特定人员通过技术手段获得的,而是本单位人员蓄意或无意泄露的。数据全流程管理的规范就是要做到企业能够对数据进行分级分权限的管理,随时了解敏感数据存储在哪些服务器和终端设备上,对于敏感数据的任何处理,都能够留下数据日志并打上唯一的数据水印,使任何可能的数据泄露之后,都能够追根溯源知道是哪一位员工在什么时间点在哪一台设备上运用何种权限下载的。对于一些操作过程中出现的风险点,良好的管理规范也能够实时发现,防患于未然。
Step 3. 建设数据管理平台
有的读者一听到数据管理平台,就认为是要花一大笔钱建设数据中心,把数据存起来。数据管理平台肯定要有数据中心的存储灾备功能,但是它的作用远不止此。
首先,数据管理平台要为企业量身定做一套数据组织和管理的解决方案,特别是企业各部门之间数据的共融共通,以及企业数据怎么样进行索引和关联。很多大企业,各部门之间数据的格式、形态和ID系统都不一致,部门之间无法交换数据,甚至大部分的数据表连主键和外键都没有,数据之间不可能形成有效的组织。这些都是数据管理平台要做的事情。
其次,数据管理平台是由业务所引导的,先进的流数据智能处理系统,要为业务提供直接的支撑。很多时候,数据管理平台怎么搭建,需要深度了解企业最重要的核心业务,通过有重大价值的示范性应用来牵引数据管理平台的建设。例如针对零售类的企业,就应该形成以消费者为中心的索引和画像系统,主要支持精准广告、智能客服等核心业务,其次才是以商品为中心的索引系统,主要支持物流和仓储优化等业务。
最后,数据管理平台的建设要量体裁衣,强调鲁棒性和可扩展性,没有必要一开始就投入大量经费。因为硬件成本的下降也很快,不用想太多半年甚至一年以后的事情,只要架构设计合理,到需要的时候扩充硬件是容易的。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
逻辑回归是数据分析、机器学习、统计建模中应用最广泛的二分类预测模型,常用于风险判断、行为预测、归因分析等场景。在SPSS、Py ...
2026-06-02数字经济时代,市场竞争日趋同质化,用户消费需求愈发个性化、多元化,传统依托经验、粗放式、广撒网的营销模式弊端日益凸显。长 ...
2026-06-02 很多数据分析师做过按月份的销售额趋势图,画过按天的流量折线图,但当被问到“时间序列和普通数据有什么本质区别”“季节性 ...
2026-06-02在市场竞争日趋饱和、用户需求不断细分的当下,企业创业创新、产品迭代与市场拓展不再依赖经验决策,而是需要系统化、工具化的商 ...
2026-06-01【核心关键词】调度、岗位、数据库、企业、报表、培训、程序、数据分析、数据加工、业务部门、企业数据、调度工具、业务指标、 ...
2026-06-01 很多数据分析师能熟练地计算指标、搭建标签体系,但当被问到“画像到底在解决什么问题”“画像和标签是什么关系”“画像如何 ...
2026-06-01在数据统计分析、数据清洗、异常值识别与数据分布研究中,箱型图是最直观、高效、专业的可视化分析工具。相较于柱状图、折线图仅 ...
2026-05-29Tkinter是Python内置的标准GUI图形界面库,具备无需额外安装、调用简单、兼容性强、轻量化高效等优势,是Python快速开发桌面小程 ...
2026-05-29 很多分析师在设计标签时思路清晰,但真到落地环节却面临“数据在手,不知如何转化为可用标签”的困境:或因加工方式选择不当 ...
2026-05-29【核心关键词】大数据、经理、专业、金融、客户、传统、建模、数据产品、互联网金融、产品经理、数据分析、金融行业、数据模型 ...
2026-05-28 很多分析师每天和数据打交道,但当被问到“标签是什么”“标签和指标有什么区别”“标签体系如何设计”时,却常常答不上来。 ...
2026-05-28随着大数据技术的快速普及,各行各业积累了海量的用户数据、交易数据、生产数据与行为数据。单纯的数据统计与报表分析只能呈现表 ...
2026-05-28在Python网络请求、接口测试、数据爬取、业务对接开发中,Requests库是最简洁、最高效的HTTP请求工具,凭借简洁的语法、完善的适 ...
2026-05-272025 年,零售与服务行业的竞争已从 “经验驱动” 全面转向 “数据驱动”。中小企业门店普遍面临数据零散、分析浅层、决策凭感觉 ...
2026-05-27 很多数据分析师每天都在写SQL,但当被问到“数据查询语言(DQL)的本质是什么”“SELECT语句中各子句的书写顺序与实际执行顺 ...
2026-05-27在统计学分析、实验研究、业务数据复盘过程中,单因素方差分析是检验自变量对因变量是否存在显著影响的核心方法。其中,两个水平 ...
2026-05-26【核心关键词】算法、客户、大数据、互联网、调优、建模、模型优化、机器学习、评分卡模型、模型开发、智能风控、业务场景、数 ...
2026-05-26 很多数据分析师写过无数个 SELECT,但当被问到“新建一张表,该如何定义字段类型来保证数据质量”“创建视图和存储物理表有 ...
2026-05-26在数据清洗、统计分析与数据质量检测工作中,箱型图(又称箱线图、Box Plot)是最直观、最高效的可视化分析工具之一。相较于柱状 ...
2026-05-25在大数据分析、数据清洗、质量管控、风险监测等领域,异常数据识别是保障数据质量、确保分析结论精准、规避业务决策失误的核心基 ...
2026-05-25