
盘点:数据挖掘历史中的那些重要里程碑
数据挖掘现在随处可见,而它的故事在《点球成金》出版和“棱镜门”事件发生之前就已经开始了。下文叙述的就是数据挖掘的主要里程碑,历史上的第一次,它是怎样发展以及怎样与数据科学和大数据融合。
数据挖掘是在大数据集(即:大数据)上探索和揭示模式规律的计算过程。它是计算机科学的分支,融合了统计学、数据科学、数据库理论和机器学习等众多技术。
1763年Thomas Bayes 的论文在他死后发表,他所提出的 Bayes 理论将当前概率与先验概率联系起来。因为 Bayes 理论能够帮助理解基于概率估计的复杂现况,所以它成为了数据挖掘和概率论的基础。1805年Adrien-Marie Legendre 和 Carl Friedrich Gauss 使用回归确定了天体(彗星和行星)绕行太阳的轨道。回归分析的目标是估计变量之间的关系,在这个例子中采用的方法是最小二乘法。自此,回归成为数据挖掘的重要工具之一。1936年计算机时代即将到来,它让海量数据的收集和处理成为可能。在1936年发表的论文《论可计算数(On Computable Numbers)》中,Alan Turing 介绍了通用机(通用图灵机)的构想,通用机具有像今天的计算机一般的计算能力。现代计算机就是在图灵这一开创性概念上建立起来的。1943年Warren McCullon 和 Walter Pitts 首先构建出神经网络的概念模型。在名为 《A logical calculus of the ideas immanent in nervous activity》 的论文中,他们阐述了网络中神经元的概念。每一个神经元可以做三件事情:接受输入,处理输入和生成输出。1965年Lawrence J. Fogel 成立了一个新的公司,名为 Decision Science, Inc,目的是对进化规划进行应用。这是第一家专门将进化计算应用于解决现实世界问题的公司。1970年随着数据库管理系统趋于成熟,存储和查询百万兆字节甚至千万亿字节成为可能。而且,数据仓库允许用户从面向事物处理的思维方式向更注重数据分析的方式进行转变。然而,从这些多维模型的数据仓库中提取复杂深度信息的能力是非常有限的。1975年John Henry Holland 所著的《自然与人工系统中的适应》问世,成为遗传算法领域具有开创意义的著作。这本书讲解了遗传算法领域中的基本知识,阐述理论基础,探索其应用。1980年HNC 对“数据挖掘”这个短语注册了商标。注册这个商标的目的是为了保护名为“数据挖掘工作站”的产品的知识产权。该工作站是一种构建神经网络模型的通用工具,不过现在早已销声匿迹。也正是在这个时期,出现了一些成熟的算法,能够“学习”数据间关系,相关领域的专家能够从中推测出各种数据关系的实际意义。1989年术语“数据库中的知识发现”(KDD)被Gregory Piatetsky-Shapiro 提出。同样这个时期,他合作建立起第一个同样名为KDD的研讨会。1990年“数据挖掘”这个术语出现在数据库社区。零售公司和金融团体使用数据挖掘分析数据和观察趋势以扩大客源,预测利率的波动,股票价格以及顾客需求。1992年Berhard E. Boser, Isabelle M. Guyon 和 Vladimir N. Vanik对原始的支持向量机提出了一种改进办法,新的支持向量机充分考虑到非线性分类器的构建。支持向量机是一种监督学习方法,用分类和回归分析的方法进行数据分析和模式识别式。1993年Gregory Piatetsky-Shapiro 创立“ Knowledge Discovery Nuggets (KDnuggets) ”通讯。本意是联系参加KDD研讨会的研究者,然而KDnuggets.com的读者群现在似乎广泛得多。2001年尽管“数据科学”这个术语在六十年代就已存在,但直至 2001 年,William S. Cleveland 才以一个独立的概念介绍它。根据《Building Data Science Teams》所著,DJ Patil 和 Jeff Hammerbacher 随后使用这个术语介绍他们在 LinkedIn 和 Facebook 中承担的角色 。2003年Micheal Lewis 写的 《点球成金》 出版,同时它也改变了许多主流联赛决策层的工作方式。奥克兰运动家队(美国职业棒球大联盟球队)使用一种统计的,数据驱动的方式针对球员的素质进行筛选,这些球员被低估或者身价更低。以这种方式,他们成功组建了一支打进2002和2003年季后赛的队伍,而他们的薪金总额只有对手的1/3。2015年在 2015 年二月,DJ Patil成为白宫第一位首位数据科学家。今天,数据挖掘已经遍布商业、科学、工程和医药,这还只是一小部分。信用卡交易,股票市场流动,国家安全,基因组测序以及临床试验方面的挖掘,都只是指数据挖掘应用的冰山一角。随着数据收集成本变得越来越低,数据收集设备数目激增,像大数据这样的专有名词现在已经是随处可见。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
用 SQL 生成逆向回滚 SQL:数据操作的 “后悔药” 指南 在数据库操作中,误删数据、错改字段或误执行批量更新等问题时有发生。 ...
2025-07-14如何考取数据分析师证书:以 CDA 为例 在数字化浪潮席卷各行各业的当下,数据分析师已然成为企业挖掘数据价值、驱动决策的 ...
2025-07-14t检验与Wilcoxon检验的选择:何时用t.test,何时用wilcox.test? t 检验与 Wilcoxon 检验的选择:何时用 t.test,何时用 wilcox. ...
2025-07-14AI 浪潮下的生存与进阶: CDA数据分析师—开启新时代职业生涯的钥匙(深度研究报告、发展指导白皮书) 发布机构:CDA数据科 ...
2025-07-13LSTM 模型输入长度选择技巧:提升序列建模效能的关键 在循环神经网络(RNN)家族中,长短期记忆网络(LSTM)凭借其解决长序列 ...
2025-07-11CDA 数据分析师报考条件详解与准备指南 在数据驱动决策的时代浪潮下,CDA 数据分析师认证愈发受到瞩目,成为众多有志投身数 ...
2025-07-11数据透视表中两列相乘合计的实用指南 在数据分析的日常工作中,数据透视表凭借其强大的数据汇总和分析功能,成为了 Excel 用户 ...
2025-07-11尊敬的考生: 您好! 我们诚挚通知您,CDA Level I和 Level II考试大纲将于 2025年7月25日 实施重大更新。 此次更新旨在确保认 ...
2025-07-10BI 大数据分析师:连接数据与业务的价值转化者 在大数据与商业智能(Business Intelligence,简称 BI)深度融合的时代,BI ...
2025-07-10SQL 在预测分析中的应用:从数据查询到趋势预判 在数据驱动决策的时代,预测分析作为挖掘数据潜在价值的核心手段,正被广泛 ...
2025-07-10数据查询结束后:分析师的收尾工作与价值深化 在数据分析的全流程中,“query end”(查询结束)并非工作的终点,而是将数 ...
2025-07-10CDA 数据分析师考试:从报考到取证的全攻略 在数字经济蓬勃发展的今天,数据分析师已成为各行业争抢的核心人才,而 CDA(Certi ...
2025-07-09【CDA干货】单样本趋势性检验:捕捉数据背后的时间轨迹 在数据分析的版图中,单样本趋势性检验如同一位耐心的侦探,专注于从单 ...
2025-07-09year_month数据类型:时间维度的精准切片 在数据的世界里,时间是最不可或缺的维度之一,而year_month数据类型就像一把精准 ...
2025-07-09CDA 备考干货:Python 在数据分析中的核心应用与实战技巧 在 CDA 数据分析师认证考试中,Python 作为数据处理与分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 检验:数据趋势与突变分析的有力工具 在数据分析的广袤领域中,准确捕捉数据的趋势变化以及识别 ...
2025-07-08备战 CDA 数据分析师考试:需要多久?如何规划? CDA(Certified Data Analyst)数据分析师认证作为国内权威的数据分析能力认证 ...
2025-07-08LSTM 输出不确定的成因、影响与应对策略 长短期记忆网络(LSTM)作为循环神经网络(RNN)的一种变体,凭借独特的门控机制,在 ...
2025-07-07统计学方法在市场调研数据中的深度应用 市场调研是企业洞察市场动态、了解消费者需求的重要途径,而统计学方法则是市场调研数 ...
2025-07-07CDA数据分析师证书考试全攻略 在数字化浪潮席卷全球的当下,数据已成为企业决策、行业发展的核心驱动力,数据分析师也因此成为 ...
2025-07-07