京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据也有小应用_数据分析师培训
随着信息技术的快速发展,近来, 大数据及以之为基础的研究范式——大数据范式 (big data paradigm)——成为了越来越流行的概念。 虽说大数据的 “大” 乃是相对概念, 即相对于数据存储和处理技术而言的 “大”, 从而并无绝对意义, 但这几年很多人对相对于当前技术而言的 “大” 似乎产生了特殊感觉, 认为它已超越了某种临界值, 将引发诸多领域的重大、 甚至革命性的变革。 每当有大的新东西出现在地平线上时, 这种稍显迫不及待的迎接革命的感觉乃是常见的衍生现象, 其可靠性往往大可商榷。 不过, 大数据有着各种各样的具体应用倒是不争的事实。
在本文中, 我们就来介绍一项小应用。
严格讲, 本文的标题有些 “拉大旗作虎皮”, 因为这项小应用所涉及的数据相对于当前技术而言远远算不上 “大” (因此我们对 “大数据” 一词加了引号), 不过它所采用的以数据关联为核心, 将因果置一旁的做法乃是大数据范式中的典型方法, 而且这项小应用规模虽小, 毕竟也需动用计算机, 从而在手段上跟大数据范式也算搭界。
这项小应用就是确定某些历史文件的年代。
确定历史文件的年代一向是史学家们关心且必须要做的事情, 因为很多资料只有确定了年代才能发挥应有的作用。 但由于不难想象的种种原因, 很多历史文件的年代是未知的。 为确定这类文件的年代, 一种典型的做法是求助于碳-14 年代测定法。 但是, 由此测定的年代往往有几十年的误差, 对远古文件也许不算什么, 对近代文件却稍嫌粗糙。 此外, 这种方法有时还会对文件产生一定程度的破坏。 除碳-14 年代测定法外, 利用纸张、 油墨等技术的演进历史, 从文件所用的纸张或油墨的类型上确定年代也是常用方法, 但可惜误差往往也在几十年以上。 这些方法的不尽如人意之处, 使得其它方法有了用武之地。 最近, 加拿大多伦多大学的研究者蒂拉亨等人就示范了一种新方法。
蒂拉亨等人的研究对象是英国中世纪 时期的大量契据。 那些契据大都为拉丁文, 记录的是各类财产及土地的交易, 对研究中世纪时期的英国历史有不小的参考价值。 不过, 在现存百万份以上的契据中, 大部分是既没有标注年代, 也无法从所述内容中推断出年代的。 另一方面, 中世纪距今不过几百年, 前面提到的那些方法的几十年误差相对来说就显得很大, 而且上百万份的巨大数量也使那些方法变得不太现实。 为此, 蒂拉亨等人采用了一种新方法。 他们以几千份年代已知的契据为基准, 对年代未知的契据与年代已知的契据中词汇及词组的分布规律进行统计对比, 由此分析出前者与不同年代的后者之间的相似程度, 并以此确定前者最有可能的年代 (即相似程度最大的年代); 或者, 也可以先由后者估算出不同词汇及词组在不同年代的出现概率, 再以它们在前者中的出现数量估算出前者在各个年代的出现概率, 进而确定最有可能的年代 (即出现概率最大的年代)。
这类方法的准确度如何呢? 蒂拉亨等人用一个很聪明的方法进行了测算, 那就是将之应用到年代已知的文件上, 将估算结果与实际年代进行比较。 他们发现, 这种估算的平均误差可缩小至 10 年以下, 从而比前面提到的那些方法更精确。
当然, 这种方法中也有许多不确定性, 比如契据之间的相似程度, 契据在不同年代的出现概率等都并无唯一定义, 统计对比所用的算法也不唯一。 这些不确定性在大数据范式中是很常见的, 它们有弊也有利。 “弊” 者在于理据不像碳-14 年代测定法之类的方法那样明晰; “利” 者则在于提供了改进方法所需的额外自由度。 事实上, 蒂拉亨等人的研究本身就是这种额外自由度的体现, 因为他们并不是这类方法的创始人, 而只是利用不确定性所提供的额外自由度, 引进了新的定义及算法。
蒂拉亨等人所示范的方法也适用于其它时期或其它类型的文件, 并且除了帮助确定年代外, 还有助于确定与文件有关的其它属性。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
机器学习算法工程的核心价值,在于将理论算法转化为可落地、可复用、高可靠的工程化解决方案,解决实际业务中的痛点问题。不同于 ...
2026-03-18在动态系统状态估计与目标跟踪领域,高精度、高鲁棒性的状态感知是机器人导航、自动驾驶、工业控制、目标检测等场景的核心需求。 ...
2026-03-18“垃圾数据进,垃圾结果出”,这是数据分析领域的黄金法则,更是CDA(Certified Data Analyst)数据分析师日常工作中时刻恪守的 ...
2026-03-18在机器学习建模中,决策树模型因其结构直观、易于理解、无需复杂数据预处理等优势,成为分类与回归任务的首选工具之一。而变量重 ...
2026-03-17在数据分析中,卡方检验是一类基于卡方分布的假设检验方法,核心用于分析分类变量之间的关联关系或实际观测分布与理论期望分布的 ...
2026-03-17在数字化转型的浪潮中,企业积累的数据日益庞大且分散——用户数据散落在注册系统、APP日志、客服记录中,订单数据分散在交易平 ...
2026-03-17在数字化时代,数据分析已成为企业决策、业务优化、增长突破的核心支撑,从数据仓库搭建(如维度表与事实表的设计)、数据采集清 ...
2026-03-16在数据仓库建设、数据分析(尤其是用户行为分析、业务指标分析)的实践中,维度表与事实表是两大核心组件,二者相互依存、缺一不 ...
2026-03-16数据是CDA(Certified Data Analyst)数据分析师开展一切工作的核心载体,而数据读取作为数据生命周期的关键环节,是连接原始数 ...
2026-03-16在用户行为分析实践中,很多从业者会陷入一个核心误区:过度关注“当前数据的分析结果”,却忽视了结果的“泛化能力”——即分析 ...
2026-03-13在数字经济时代,用户的每一次点击、浏览、停留、转化,都在传递着真实的需求信号。用户行为分析,本质上是通过收集、整理、挖掘 ...
2026-03-13在金融、零售、互联网等数据密集型行业,量化策略已成为企业挖掘商业价值、提升决策效率、控制经营风险的核心工具。而CDA(Certi ...
2026-03-13在机器学习建模体系中,随机森林作为集成学习的经典算法,凭借高精度、抗过拟合、适配多场景、可解释性强的核心优势,成为分类、 ...
2026-03-12在机器学习建模过程中,“哪些特征对预测结果影响最大?”“如何筛选核心特征、剔除冗余信息?”是从业者最常面临的核心问题。随 ...
2026-03-12在数字化转型深度渗透的今天,企业管理已从“经验驱动”全面转向“数据驱动”,数据思维成为企业高质量发展的核心竞争力,而CDA ...
2026-03-12在数字经济飞速发展的今天,数据分析已从“辅助工具”升级为“核心竞争力”,渗透到商业、科技、民生、金融等各个领域。无论是全 ...
2026-03-11上市公司财务报表是反映企业经营状况、盈利能力、偿债能力的核心数据载体,是投资者决策、研究者分析、从业者复盘的重要依据。16 ...
2026-03-11数字化浪潮下,数据已成为企业生存发展的核心资产,而数据思维,正是CDA(Certified Data Analyst)数据分析师解锁数据价值、赋 ...
2026-03-11线性回归是数据分析中最常用的预测与关联分析方法,广泛应用于销售额预测、风险评估、趋势分析等场景(如前文销售额预测中的多元 ...
2026-03-10在SQL Server安装与配置的实操中,“服务名无效”是最令初学者头疼的高频问题之一。无论是在命令行执行net start启动服务、通过S ...
2026-03-10