京公网安备 11010802034615号
经营许可证编号:京B2-20210330
在企业管理信息化的大背景下,数据分析技术已经成为企业应用关注的一个焦点,但由于历史原因,大部分人对传统的统计分析和新起的数据挖掘都不太了解,存在着许多模糊认识。这里先谈谈对统计方法的两种常见的误解。
对统计分析的两种误解
统计学有很强的数学背景,所以常见的误解是:统计学家约等于数学家,数学家约等于陈景润,陈景润约等于歌德巴赫,于是统计学家约等于歌德巴赫。问题来了,歌德巴赫和企业的数据管理有什么关系呢?对于统计学来说,这种误解实在是极大的不幸。著名统计学家George Box有句名言:所有的模型都是错误的,而其中有些模型是有用的。这种话表面上看来是很放肆的,但统计学家们在处理实际问题的时候,所采取的就是这种实用主义态度。统计学家是一群跟数据打交道的工程师,工程师们也要使用大量的数学公式和计算,但决不是坐在屋子里证明高深的数学定理或者哥德巴赫猜想的怪才。
还有一种误解是:统计好象和会计连在一起。说这种话的人其本意是指企业里统计员的工作和会计的工作差不多,统计员和会计的工作为统计分析提供了数据基础。但我们一般说到的统计分析却是指基于数理统计发展起来的诸多方法。这样看来,把统计和会计混为一谈是有些低估统计分析的难度和潜力了。简单说来,会计系统把营业活动转化为数据,在数据编码和标准化方面都有独到之处,它为企业管理提供了大量的基础数据,会计系统构成了定量管理的基础设施;统计方法如果要在企业的管理实践中发挥更大的作用,就应该学习会计的这种标准化思路,让自己更便于使用,更加贴近用户的理解,一句话,变得更加“傻瓜化”。
再看企业决策支持系统
从企业决策支持系统的角度来评估各种量化管理方法的意义,这时实施一种具体的统计方法或者数据挖掘技术,实际上就相当于实施一个项目。量化管理方法很多,而统计方法是一个大类,尤其适用于在不确定环境和信息不充分下的决策。
企业在选用系统的时候,该怎么办?一个通用的问题处理模型就能够说明,通用的问题处理模型包括:问题、可用的资源和技术、成本,综合考虑这三个方面的作用就能够达成一个相对合理的解决方案。这个通用的问题处理模型当然适用于企业寻找信息化途径的努力。
从一个统一的角度来看,企业定量管理的基础是数据的收集和处理系统,一般叫作决策支持系统。用这个金字塔图可以清楚地看到逐级提炼的过程(从噪音到数据、信息、知识和智慧)的提炼过程。决策所依赖的,至少是知识这个层次的加工结果,而未加工的原材料就是所谓的噪音。从这个广义的模型出发,我们可以把会计看作一个信息系统,各个层次之间的交界处需要采用特定的方法来完成提炼,而每个界面上可以运用的技术都是不一样的。
一个信息系统可以包括会计系统、数据库体系和数据分析体系,有一种常见的误解认为统计方法只涉及从数据以后开始的分析工作。其实,巧妇难为无米之炊,统计方法的运用效果取决于基础数据,而收集何种基础数据,怎样节省收集数据的成本,如何降低数据收集过程中的误差,都需要一定的理论指导,统计学为回答这些问题提供了许多很有效的解决方案。
和实际的矿山一样,开掘银矿、煤矿和金矿所用的技术是完全不一样的。完成从噪音到智慧的过程包括其中的中间产物,也有一个对症下药的问题,再考虑到实施的成本和数据分析的难度(比如数据量,数据维数等等),数据处理很容易被人理解为一种艺术。说统计分析和数据挖掘带有艺术色彩应该基本正确,这就象淘金和看病一样,不一定最贵的药就最好。比如对统计方法和统计软件的选用,就是有区别的。小型企业的信息化,基本上依赖ACCESS数据库和EXCEL界面就可以完成;大型企业的信息化则需要和专业的管理软件公司合作才能完成。早期信息化的成本和失败率往往都比较高,这和病急乱投医的情形差不多。
有些人生富贵病,典型症状就是一定要吃贵重的药,否则病好不了,这种现象在企业信息化中也能看到。打个比方,美国企业的信息化接近于坚持锻炼,中国企业的信息化则更像病后康复――有了健康人的示范效应,中国的企业就特别着急,不注意信息系统和自身管理实践的融合,只买贵的、不买对的,结果是交了不少学费。笔者希望对数据分析的运用不要陷入同样的误区。
计算机扮演的角色
从以往的情况来看,统计方法的大规模推广依赖于计算能力的不断增强或者说计算成本的大幅下降。芯片制造技术和软件工程的迅猛发展给人们留下了深刻印象,但是数据量的增长却始终走在计算机的增长前面。这种力不从心的感觉是历史上的常态。完全手工计算的时候,人们会认为多元线性回归的计算是很恐怖的;有手摇计算机的时候,作主成分分析是非常恐怖的;现在,海量数据来了,虽然拥有20年前无法想象的计算能力,有关的分析工作还是让人头痛不已。但是,计算机还是让统计学跟在后面,不断开拓自己的领地。所以,统计学应该感谢计算机,是计算机让统计学变成了真正的实用学科。
另一方面,计算机学科又在不断侵入统计的领域,模糊统计学的边界。很多人都在比较自由地利用计算机,“自以为是”地进行数据分析或者所谓的、不严密的统计分析,他们往往不把“统计专家”的意见放在眼里。有很多大量使用统计方法来分析问题的人甚至没有接受过足够的统计学科训练。对于许多计算数学方面的专家来说,统计学家的权威地位是比较古怪的东西。
偏偏还有许多统计方法的发展历程是这样的:实际应用部门的人提出了一种经验方法,然后其他非统计专业的人开始模仿并推广,最后统计学家跟在后面,努力说明这种方法在统计意义下的合理性并把这种方法整理得更符合学院派的需要。得到广泛应用的方法就会进入统计教科书,成为统计学的组成部分。有些时候,统计学落在了应用的后面。
现在,依赖严格数学假设和推理的统计分析方法依然是统计学的主流。但是面对外行们的自由行动,统计学家比较无奈。数据挖掘正在充当新的入侵者甚至是竞争者,统计学家应该区分自己的理论和实际应用,结果统计学家内部开始分化,放下架子的人越来越多,这是好事。但是,许多来自计算科学的数据挖掘专家为了凸显自己的革命者形象,会宣称自己并非统计学家,甚至强调无须懂得统计学,这就有些虚无主义,做过了头。
结语
我们可以把眼光放得远一点,从数据转化来看,会计做得很好;从对数据质量的描述和要求来看,也是会计做得更规范,那么各种数据分析方法都可以从中吸取经验。而分析数据的经验是统计方法更加丰富,新起的数据分析方法一定要划清界线的话,就不能充分利用已有的经验,显然会付出更多的不必要的成本。而从企业信息化的需求来看,将企业的决策支持系统看作一个整体,然后尽量从企业的一体化视图出发来选择和运用已有的各种量化管理方法。一句话,就是不要神化任何量化管理方法才是正途。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
【核心关键词】软件、洞察力、大数据、产品、经验、硬件、流量、创新、决策、数据安全、网络安全、数据分析、决策制定、数据挖 ...
2026-06-18在方案选型、效果复盘、产品评估、供应商筛选等各类业务决策场景中,仅凭单一指标下结论往往会陷入 “以偏概全” 的误区。多维度 ...
2026-06-18 很多数据分析师精通Excel单元格操作,但当被问到“表结构数据的基本处理单位是什么”“字段和记录的本质区别”“为什么表结 ...
2026-06-18在数据分析、用户运营与业务增长的工作体系中,漏斗拆解是最基础也最高频的问题定位方法。很多业务场景下,我们只能看到最终的转 ...
2026-06-17在数据库开发、数据清洗与报表统计场景中,数值类型转换为日期是高频刚需操作。业务系统常以 Unix 时间戳、整型日期(如20240617 ...
2026-06-17 数据分析师八成以上的时间在和数据表格打交道,但许多人拿到Excel后习惯性地先算、先分析,结果回头发现漏了一列关键数据, ...
2026-06-17【核心关键词】数据库、电商、知识、产品、数据产品、监管业务、产品经理、业务系统、用户行为分析、用户分析、数据分析、电商 ...
2026-06-16在 Python 动态类型与面向对象的编程体系中,变量定义与类实例化是构建代码逻辑的两大核心基石。变量是数据存储、传递与运算的基 ...
2026-06-16 很多数据分析师每天与Excel打交道,但当被问到“表格结构数据和表结构数据有什么区别”“数据类型误判会引发哪些分析错误” ...
2026-06-16在 MySQL 查询性能优化体系中,索引是降低查询耗时、提升数据库吞吐的核心手段。其中联合索引与覆盖索引是实际开发中最高频的两 ...
2026-06-15在数据仓库建设与商业智能分析体系中,维度建模是应用最广泛的建模方法论,而事实表与维度表是维度建模的两大核心构件,共同构成 ...
2026-06-15 很多数据分析师能熟练计算指标,但当被问到“这家企业的核心业务目标是什么”“如何把模糊的战略目标拆解为可量化的指标”“ ...
2026-06-15在数据分析、业务监控、运营复盘等场景中,列值趋势计算是核心需求之一。无论是分析销售额的月度增长、用户活跃的变化趋势、库存 ...
2026-06-12在数字经济深度渗透的当下,消费者的购买行为已从过去的 “被动接受” 转变为 “主动决策”。流量红利消退、获客成本攀升、用户 ...
2026-06-12CDA三级认证是三个级别中的塔尖,全面考察数据战略、团队领导和复杂项目的综合能力。它所对应的《敏捷数据挖掘》教材,不再局限 ...
2026-06-12在游戏产业的商业逻辑中,付费玩家是支撑游戏生存与发展的核心支柱。行业普遍遵循 “二八定律”:20% 的付费玩家贡献了游戏 80% ...
2026-06-11【核心关键词】企业、定位、传统、产品、互联网、可视化、业务侧、数字化、结构化、数据分析、传统制造业、市场状态、发展空间 ...
2026-06-11 解读《CDA二级教材:量化策略分析(2025)》的全景结构与学习逻辑 ” CDA二级认证是企业招聘数据分析师时最常提及的证书门槛 ...
2026-06-11【核心关键词】药企、可视化、营销、分类、数据分析师、销售数据、业务人员、指导方向、分析报告、营销数据、营销医生 【专访摘 ...
2026-06-10在统计学分析、问卷调研、实验验证、业务复盘等场景中,卡方检验与 T 检验是应用最广泛的两类基础假设检验方法。前者专门处理分 ...
2026-06-10