京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据也有小应用_数据分析师培训
随着信息技术的快速发展,近来, 大数据及以之为基础的研究范式——大数据范式 (big data paradigm)——成为了越来越流行的概念。 虽说大数据的 “大” 乃是相对概念, 即相对于数据存储和处理技术而言的 “大”, 从而并无绝对意义, 但这几年很多人对相对于当前技术而言的 “大” 似乎产生了特殊感觉, 认为它已超越了某种临界值, 将引发诸多领域的重大、 甚至革命性的变革。 每当有大的新东西出现在地平线上时, 这种稍显迫不及待的迎接革命的感觉乃是常见的衍生现象, 其可靠性往往大可商榷。 不过, 大数据有着各种各样的具体应用倒是不争的事实。
在本文中, 我们就来介绍一项小应用。
严格讲, 本文的标题有些 “拉大旗作虎皮”, 因为这项小应用所涉及的数据相对于当前技术而言远远算不上 “大” (因此我们对 “大数据” 一词加了引号), 不过它所采用的以数据关联为核心, 将因果置一旁的做法乃是大数据范式中的典型方法, 而且这项小应用规模虽小, 毕竟也需动用计算机, 从而在手段上跟大数据范式也算搭界。
这项小应用就是确定某些历史文件的年代。
确定历史文件的年代一向是史学家们关心且必须要做的事情, 因为很多资料只有确定了年代才能发挥应有的作用。 但由于不难想象的种种原因, 很多历史文件的年代是未知的。 为确定这类文件的年代, 一种典型的做法是求助于碳-14 年代测定法。 但是, 由此测定的年代往往有几十年的误差, 对远古文件也许不算什么, 对近代文件却稍嫌粗糙。 此外, 这种方法有时还会对文件产生一定程度的破坏。 除碳-14 年代测定法外, 利用纸张、 油墨等技术的演进历史, 从文件所用的纸张或油墨的类型上确定年代也是常用方法, 但可惜误差往往也在几十年以上。 这些方法的不尽如人意之处, 使得其它方法有了用武之地。 最近, 加拿大多伦多大学的研究者蒂拉亨等人就示范了一种新方法。
蒂拉亨等人的研究对象是英国中世纪 时期的大量契据。 那些契据大都为拉丁文, 记录的是各类财产及土地的交易, 对研究中世纪时期的英国历史有不小的参考价值。 不过, 在现存百万份以上的契据中, 大部分是既没有标注年代, 也无法从所述内容中推断出年代的。 另一方面, 中世纪距今不过几百年, 前面提到的那些方法的几十年误差相对来说就显得很大, 而且上百万份的巨大数量也使那些方法变得不太现实。 为此, 蒂拉亨等人采用了一种新方法。 他们以几千份年代已知的契据为基准, 对年代未知的契据与年代已知的契据中词汇及词组的分布规律进行统计对比, 由此分析出前者与不同年代的后者之间的相似程度, 并以此确定前者最有可能的年代 (即相似程度最大的年代); 或者, 也可以先由后者估算出不同词汇及词组在不同年代的出现概率, 再以它们在前者中的出现数量估算出前者在各个年代的出现概率, 进而确定最有可能的年代 (即出现概率最大的年代)。
这类方法的准确度如何呢? 蒂拉亨等人用一个很聪明的方法进行了测算, 那就是将之应用到年代已知的文件上, 将估算结果与实际年代进行比较。 他们发现, 这种估算的平均误差可缩小至 10 年以下, 从而比前面提到的那些方法更精确。
当然, 这种方法中也有许多不确定性, 比如契据之间的相似程度, 契据在不同年代的出现概率等都并无唯一定义, 统计对比所用的算法也不唯一。 这些不确定性在大数据范式中是很常见的, 它们有弊也有利。 “弊” 者在于理据不像碳-14 年代测定法之类的方法那样明晰; “利” 者则在于提供了改进方法所需的额外自由度。 事实上, 蒂拉亨等人的研究本身就是这种额外自由度的体现, 因为他们并不是这类方法的创始人, 而只是利用不确定性所提供的额外自由度, 引进了新的定义及算法。
蒂拉亨等人所示范的方法也适用于其它时期或其它类型的文件, 并且除了帮助确定年代外, 还有助于确定与文件有关的其它属性。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
【核心关键词】数据库、电商、知识、产品、数据产品、监管业务、产品经理、业务系统、用户行为分析、用户分析、数据分析、电商 ...
2026-06-16在 Python 动态类型与面向对象的编程体系中,变量定义与类实例化是构建代码逻辑的两大核心基石。变量是数据存储、传递与运算的基 ...
2026-06-16 很多数据分析师每天与Excel打交道,但当被问到“表格结构数据和表结构数据有什么区别”“数据类型误判会引发哪些分析错误” ...
2026-06-16在 MySQL 查询性能优化体系中,索引是降低查询耗时、提升数据库吞吐的核心手段。其中联合索引与覆盖索引是实际开发中最高频的两 ...
2026-06-15在数据仓库建设与商业智能分析体系中,维度建模是应用最广泛的建模方法论,而事实表与维度表是维度建模的两大核心构件,共同构成 ...
2026-06-15 很多数据分析师能熟练计算指标,但当被问到“这家企业的核心业务目标是什么”“如何把模糊的战略目标拆解为可量化的指标”“ ...
2026-06-15在数据分析、业务监控、运营复盘等场景中,列值趋势计算是核心需求之一。无论是分析销售额的月度增长、用户活跃的变化趋势、库存 ...
2026-06-12在数字经济深度渗透的当下,消费者的购买行为已从过去的 “被动接受” 转变为 “主动决策”。流量红利消退、获客成本攀升、用户 ...
2026-06-12CDA三级认证是三个级别中的塔尖,全面考察数据战略、团队领导和复杂项目的综合能力。它所对应的《敏捷数据挖掘》教材,不再局限 ...
2026-06-12在游戏产业的商业逻辑中,付费玩家是支撑游戏生存与发展的核心支柱。行业普遍遵循 “二八定律”:20% 的付费玩家贡献了游戏 80% ...
2026-06-11【核心关键词】企业、定位、传统、产品、互联网、可视化、业务侧、数字化、结构化、数据分析、传统制造业、市场状态、发展空间 ...
2026-06-11 解读《CDA二级教材:量化策略分析(2025)》的全景结构与学习逻辑 ” CDA二级认证是企业招聘数据分析师时最常提及的证书门槛 ...
2026-06-11【核心关键词】药企、可视化、营销、分类、数据分析师、销售数据、业务人员、指导方向、分析报告、营销数据、营销医生 【专访摘 ...
2026-06-10在统计学分析、问卷调研、实验验证、业务复盘等场景中,卡方检验与 T 检验是应用最广泛的两类基础假设检验方法。前者专门处理分 ...
2026-06-10 很多数据分析师每天都在计算指标、制作报表,但当被问到“什么叫指标数据元”“指标数据标准包含哪些核心维度”“指标数据质 ...
2026-06-10在MySQL数据库日常查询、数据统计、后台接口开发、数据导出等场景中,开发者经常需要查询数据表除某几列之外的所有字段。例如查 ...
2026-06-09在Python网络请求、爬虫开发、接口测试、数据抓取等实操场景中,requests库是最常用的第三方请求工具,而content属性是requests ...
2026-06-09 数据分析正在重塑每一个行业。CDA认证的三本官方教材,分别对应Level I、Level II、Level III,为你铺就从业务数据分析到数 ...
2026-06-09在数字财务、智慧财税、业财融合深度推进的当下,传统财务模式下数据标准混乱、业务流程碎片化、知识无法沉淀、系统互通性差等问 ...
2026-06-08随着数字经济深度渗透各行各业,数据正式成为继土地、劳动力、资本、技术之后的第五大生产要素,是企业数字化转型、精细化运营、 ...
2026-06-08