京公网安备 11010802034615号
经营许可证编号:京B2-20210330
“大数据”时代浓浓的统计学气息
统计学在近几年的变化,可以说受计算机的影响最为强烈。
计算机使商业模式发生了翻天覆地的变化。商品的采购、库存、销售等记录基本上全都已经数据化,成本和销量的把控与用纸笔进行管理的时代相比也变 得更加简单。顾客资料与消费记录、工作人员的工作时间与评定、健康状态、支付的报酬与成本核算等信息,都可以存储在公司内部系统和Excel电子表格中。 为了生产而进行的机械操作、到自己公司网站的链接,基本上所有的登录情况都会被记录下来,必要时可以综合统计作为经营的参考。就算说那些大型公司几乎所有 的业务流程已经全部实现电子化,也不为过。
但是,当一系列的业务都实现计算机化之后,那些从事计算机业务的企业却遭遇了瓶颈。不管他们如何提高硬件和软件的处理性能,如果需要计算机化的 业务流程没有增加,顾客对性能没有特别需求,那么他们就无法继续销售自己的商品。所以,不管是硬件厂商还是软件厂商,还是使用这些提供计算机服务的厂商, 所有与计算机相关的企业,都必须对已经得到满足的顾客们,提供一个购买他们更新技术的“理由”。
从好的方面来看,要想将已经足以满足顾客需要的性能更好地加以利用,就要考虑“如何创造更多的价值”。而实际上,计算机企业所考虑的是向顾客传 达“为了找出创造更多价值的方法,必须进行大量的数据处理”,为了让顾客接受这一提议,必须有一个“明显对商业有价值的理由”。
以现在的计算机技术来看,不管是多么庞大的数据量或者多么繁杂的计算都能够胜任,因此需要考虑的问题就变成了应该针对什么进行计算,而答案除了 统计分析之外再无其他。当然,如果只是将“统计分析”这个简单的词语作为题目,会让人感觉缺乏吸引力,于是就诞生出“大数据”和“商务智能”的概念。现在 大家之所以都对这两个题目和统计学如此关注,恐怕就是出于上述原因。
计算机行业的业界巨人,在弗明汉研究使用穿孔卡片和大型计算机时代就为其提供技术支持的IBM公司在这一点上表现得最为突出。IBM斥资数十亿 美元收购了在商务智能方面非常有名的Cognos公司,以及开发统计分析软件的SPSS公司,这两家公司都是在这一领域拥有丰富经验和影响力的公司。据说 2005~2011年之间,IBM公司对统计学和商务智能相关企业的投资金额已经超过140亿美元。
除了IBM之外,微软公司以及在数据库领域非常有名的甲骨文公司,还有NTT数据公司,都开始积极地收购与统计学和商务智能相关的企业。
或许这几家公司都已经发现,在接下来的时间里从自己的商业领域产生价值的主营产业,都在其中。
最能够证明这一推测的根据,来自于微软在专门用于招聘的网页上于2010年8月23日发表的一篇文章,其中提到技术领域今后最热门的3个专业,如下所示。
数据分析、机械学习、人工智能、自然语言处理。
商务智能、竞争分析。
分析、统计——特别是网页分析、分离测试(A/B测试)、统计分析。
只要是学过“计算机统计学”知识的人,都能够从上述内容里感觉到浓浓的统计学气息吧。
为了再现人类的认知机能,而从计算程序算法研究发展而来的机械学习与人工智能领域,如今若是没有统计学的理论基础就很难深入学习,至于商务智能 则完全可以说是统计学在商业领域的应用。要想完成A/B测试的计划,20世纪中叶现代统计学之父罗纳德·艾尔默·费希尔所完成的被称为“试验设计”的统计 学相关知识,则是最为重要的基础。
未来10年最受欢迎的职业是统计
另外,谷歌(Google)则比微软更加明确地表达了对统计学家的赞誉。谷歌的首席经济学家哈尔·范里安博士曾经在2009年1月麦肯锡公司发行的杂志上这样说道:
我一直坚信,未来10年最受欢迎的职业是统计。
最近,美国人经常使用“sexy”这个词来表达“受欢迎的”或者“有魅力的”,比如,“新款苹果手机的设计非常sexy”。哈尔认为统计学家也是“sexy”的。
作为一名统计学家,我对于哈尔的发言感到非常光荣,而且这绝对不是什么只停留在口头上的赞誉。统计学如今已经得到了计算机这个强有力的伙伴,可以被应用在所有领域,可以出现在世界上的每一个角落,以及人生中的每一个瞬间,能够对所有渴望得到回答的问题给出最佳答案。
曾经人类为了得到(自认为)正确的答案而只能寻求神的启示,后来在漫长时间中只能服从权威人士的意见。
但是,现在的情况不一样了。最佳答案就存在于每个人周围的数据之中。只要掌握统计学这个最强的学问,不管是想要健康、聪明,还是富裕,都变得非常简单。正如之前所说过的那样,这是世界上的学者们通过统计学证明的事实。
而想掌握这个最强、最受欢迎的学问,不必像IBM那样支付数额庞大的资金,只要在你的人生中投入一些学习时间就足够了。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在 MySQL 数据查询中,“按顺序计数” 是高频需求 —— 例如 “统计近 7 天每日订单量”“按用户 ID 顺序展示消费记录”“按产品 ...
2025-10-31在数据分析中,“累计百分比” 是衡量 “部分与整体关系” 的核心指标 —— 它通过 “逐步累加的占比”,直观呈现数据的分布特征 ...
2025-10-31在 CDA(Certified Data Analyst)数据分析师的工作中,“二分类预测” 是高频需求 —— 例如 “预测用户是否会流失”“判断客户 ...
2025-10-31在 MySQL 实际应用中,“频繁写入同一表” 是常见场景 —— 如实时日志存储(用户操作日志、系统运行日志)、高频交易记录(支付 ...
2025-10-30为帮助教育工作者、研究者科学分析 “班级规模” 与 “平均成绩” 的关联关系,我将从相关系数的核心定义与类型切入,详解 “数 ...
2025-10-30对 CDA(Certified Data Analyst)数据分析师而言,“相关系数” 不是简单的数字计算,而是 “从业务问题出发,量化变量间关联强 ...
2025-10-30在构建前向神经网络(Feedforward Neural Network,简称 FNN)时,“隐藏层数目设多少?每个隐藏层该放多少个神经元?” 是每个 ...
2025-10-29这个问题切中了 Excel 用户的常见困惑 —— 将 “数据可视化工具” 与 “数据挖掘算法” 的功能边界混淆。核心结论是:Excel 透 ...
2025-10-29在 CDA(Certified Data Analyst)数据分析师的工作中,“多组数据差异验证” 是高频需求 —— 例如 “3 家门店的销售额是否有显 ...
2025-10-29在数据分析中,“正态分布” 是许多统计方法(如 t 检验、方差分析、线性回归)的核心假设 —— 数据符合正态分布时,统计检验的 ...
2025-10-28箱线图(Box Plot)作为展示数据分布的核心统计图表,能直观呈现数据的中位数、四分位数、离散程度与异常值,是质量控制、实验分 ...
2025-10-28在 CDA(Certified Data Analyst)数据分析师的工作中,“分类变量关联分析” 是高频需求 —— 例如 “用户性别是否影响支付方式 ...
2025-10-28在数据可视化领域,单一图表往往难以承载多维度信息 —— 力导向图擅长展现节点间的关联结构与空间分布,却无法直观呈现 “流量 ...
2025-10-27这个问题问到了 Tableau 中两个核心行级函数的经典组合,理解它能帮你快速实现 “相对位置占比” 的分析需求。“index ()/size ( ...
2025-10-27对 CDA(Certified Data Analyst)数据分析师而言,“假设检验” 绝非 “套用统计公式的机械操作”,而是 “将模糊的业务猜想转 ...
2025-10-27在数字化运营中,“凭感觉做决策” 早已成为过去式 —— 运营指标作为业务增长的 “晴雨表” 与 “导航仪”,直接决定了运营动作 ...
2025-10-24在卷积神经网络(CNN)的训练中,“卷积层(Conv)后是否添加归一化(如 BN、LN)和激活函数(如 ReLU、GELU)” 是每个开发者都 ...
2025-10-24在数据决策链条中,“统计分析” 是挖掘数据规律的核心,“可视化” 是呈现规律的桥梁 ——CDA(Certified Data Analyst)数据分 ...
2025-10-24在 “神经网络与卡尔曼滤波融合” 的理论基础上,Python 凭借其丰富的科学计算库(NumPy、FilterPy)、深度学习框架(PyTorch、T ...
2025-10-23在工业控制、自动驾驶、机器人导航、气象预测等领域,“状态估计” 是核心任务 —— 即从含噪声的观测数据中,精准推断系统的真 ...
2025-10-23