京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据也有小应用_数据分析师培训
随着信息技术的快速发展,近来, 大数据及以之为基础的研究范式——大数据范式 (big data paradigm)——成为了越来越流行的概念。 虽说大数据的 “大” 乃是相对概念, 即相对于数据存储和处理技术而言的 “大”, 从而并无绝对意义, 但这几年很多人对相对于当前技术而言的 “大” 似乎产生了特殊感觉, 认为它已超越了某种临界值, 将引发诸多领域的重大、 甚至革命性的变革。 每当有大的新东西出现在地平线上时, 这种稍显迫不及待的迎接革命的感觉乃是常见的衍生现象, 其可靠性往往大可商榷。 不过, 大数据有着各种各样的具体应用倒是不争的事实。
在本文中, 我们就来介绍一项小应用。
严格讲, 本文的标题有些 “拉大旗作虎皮”, 因为这项小应用所涉及的数据相对于当前技术而言远远算不上 “大” (因此我们对 “大数据” 一词加了引号), 不过它所采用的以数据关联为核心, 将因果置一旁的做法乃是大数据范式中的典型方法, 而且这项小应用规模虽小, 毕竟也需动用计算机, 从而在手段上跟大数据范式也算搭界。
这项小应用就是确定某些历史文件的年代。
确定历史文件的年代一向是史学家们关心且必须要做的事情, 因为很多资料只有确定了年代才能发挥应有的作用。 但由于不难想象的种种原因, 很多历史文件的年代是未知的。 为确定这类文件的年代, 一种典型的做法是求助于碳-14 年代测定法。 但是, 由此测定的年代往往有几十年的误差, 对远古文件也许不算什么, 对近代文件却稍嫌粗糙。 此外, 这种方法有时还会对文件产生一定程度的破坏。 除碳-14 年代测定法外, 利用纸张、 油墨等技术的演进历史, 从文件所用的纸张或油墨的类型上确定年代也是常用方法, 但可惜误差往往也在几十年以上。 这些方法的不尽如人意之处, 使得其它方法有了用武之地。 最近, 加拿大多伦多大学的研究者蒂拉亨等人就示范了一种新方法。
蒂拉亨等人的研究对象是英国中世纪 时期的大量契据。 那些契据大都为拉丁文, 记录的是各类财产及土地的交易, 对研究中世纪时期的英国历史有不小的参考价值。 不过, 在现存百万份以上的契据中, 大部分是既没有标注年代, 也无法从所述内容中推断出年代的。 另一方面, 中世纪距今不过几百年, 前面提到的那些方法的几十年误差相对来说就显得很大, 而且上百万份的巨大数量也使那些方法变得不太现实。 为此, 蒂拉亨等人采用了一种新方法。 他们以几千份年代已知的契据为基准, 对年代未知的契据与年代已知的契据中词汇及词组的分布规律进行统计对比, 由此分析出前者与不同年代的后者之间的相似程度, 并以此确定前者最有可能的年代 (即相似程度最大的年代); 或者, 也可以先由后者估算出不同词汇及词组在不同年代的出现概率, 再以它们在前者中的出现数量估算出前者在各个年代的出现概率, 进而确定最有可能的年代 (即出现概率最大的年代)。
这类方法的准确度如何呢? 蒂拉亨等人用一个很聪明的方法进行了测算, 那就是将之应用到年代已知的文件上, 将估算结果与实际年代进行比较。 他们发现, 这种估算的平均误差可缩小至 10 年以下, 从而比前面提到的那些方法更精确。
当然, 这种方法中也有许多不确定性, 比如契据之间的相似程度, 契据在不同年代的出现概率等都并无唯一定义, 统计对比所用的算法也不唯一。 这些不确定性在大数据范式中是很常见的, 它们有弊也有利。 “弊” 者在于理据不像碳-14 年代测定法之类的方法那样明晰; “利” 者则在于提供了改进方法所需的额外自由度。 事实上, 蒂拉亨等人的研究本身就是这种额外自由度的体现, 因为他们并不是这类方法的创始人, 而只是利用不确定性所提供的额外自由度, 引进了新的定义及算法。
蒂拉亨等人所示范的方法也适用于其它时期或其它类型的文件, 并且除了帮助确定年代外, 还有助于确定与文件有关的其它属性。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在 MySQL 实际应用中,“频繁写入同一表” 是常见场景 —— 如实时日志存储(用户操作日志、系统运行日志)、高频交易记录(支付 ...
2025-10-30为帮助教育工作者、研究者科学分析 “班级规模” 与 “平均成绩” 的关联关系,我将从相关系数的核心定义与类型切入,详解 “数 ...
2025-10-30对 CDA(Certified Data Analyst)数据分析师而言,“相关系数” 不是简单的数字计算,而是 “从业务问题出发,量化变量间关联强 ...
2025-10-30在构建前向神经网络(Feedforward Neural Network,简称 FNN)时,“隐藏层数目设多少?每个隐藏层该放多少个神经元?” 是每个 ...
2025-10-29这个问题切中了 Excel 用户的常见困惑 —— 将 “数据可视化工具” 与 “数据挖掘算法” 的功能边界混淆。核心结论是:Excel 透 ...
2025-10-29在 CDA(Certified Data Analyst)数据分析师的工作中,“多组数据差异验证” 是高频需求 —— 例如 “3 家门店的销售额是否有显 ...
2025-10-29在数据分析中,“正态分布” 是许多统计方法(如 t 检验、方差分析、线性回归)的核心假设 —— 数据符合正态分布时,统计检验的 ...
2025-10-28箱线图(Box Plot)作为展示数据分布的核心统计图表,能直观呈现数据的中位数、四分位数、离散程度与异常值,是质量控制、实验分 ...
2025-10-28在 CDA(Certified Data Analyst)数据分析师的工作中,“分类变量关联分析” 是高频需求 —— 例如 “用户性别是否影响支付方式 ...
2025-10-28在数据可视化领域,单一图表往往难以承载多维度信息 —— 力导向图擅长展现节点间的关联结构与空间分布,却无法直观呈现 “流量 ...
2025-10-27这个问题问到了 Tableau 中两个核心行级函数的经典组合,理解它能帮你快速实现 “相对位置占比” 的分析需求。“index ()/size ( ...
2025-10-27对 CDA(Certified Data Analyst)数据分析师而言,“假设检验” 绝非 “套用统计公式的机械操作”,而是 “将模糊的业务猜想转 ...
2025-10-27在数字化运营中,“凭感觉做决策” 早已成为过去式 —— 运营指标作为业务增长的 “晴雨表” 与 “导航仪”,直接决定了运营动作 ...
2025-10-24在卷积神经网络(CNN)的训练中,“卷积层(Conv)后是否添加归一化(如 BN、LN)和激活函数(如 ReLU、GELU)” 是每个开发者都 ...
2025-10-24在数据决策链条中,“统计分析” 是挖掘数据规律的核心,“可视化” 是呈现规律的桥梁 ——CDA(Certified Data Analyst)数据分 ...
2025-10-24在 “神经网络与卡尔曼滤波融合” 的理论基础上,Python 凭借其丰富的科学计算库(NumPy、FilterPy)、深度学习框架(PyTorch、T ...
2025-10-23在工业控制、自动驾驶、机器人导航、气象预测等领域,“状态估计” 是核心任务 —— 即从含噪声的观测数据中,精准推断系统的真 ...
2025-10-23在数据分析全流程中,“数据清洗” 恰似烹饪前的食材处理:若食材(数据)腐烂变质、混杂异物(脏数据),即便拥有精湛的烹饪技 ...
2025-10-23在人工智能领域,“大模型” 已成为近年来的热点标签:从参数超 1750 亿的 GPT-3,到万亿级参数的 PaLM,再到多模态大模型 GPT-4 ...
2025-10-22在 MySQL 数据库的日常运维与开发中,“更新数据是否会影响读数据” 是一个高频疑问。这个问题的答案并非简单的 “是” 或 “否 ...
2025-10-22