
假定过一段时间后,您打算对新斯科舍省的啤酒消费者进行另一次 Web 民意测验。您再次询问他们喜爱的啤酒品牌,现在观察到下列结果: 表 4. 新的啤酒民意测验 Keiths Olands Schooner 其它 385 (27.50%) 350 (25.00%) 315 (22.50%) 350 (25.00%) 旧的数据如下所示: 表 1. 旧的啤酒民意测验(再一次显示) Keiths Olands Schooner 其它 285 (28.50%) 250 (25.00%) 215 (21.50%) 250 (25.00%) 民意测验结果之间的明显区别在于,第一次民意测验有 1,000 个调查对象,而第二次有 1,400 个调查对象。这些额外调查对象的主要影响是,使得每个回答情形的频率计数增加了 100 点。
当准备好对新的民意测验进行分析时,可以利用缺省的方法 ― 计算期望频率来分析数据,也可以利用每个结果的期望概率(基于前一次民意测验所观察到的比例)来初始化分析。在第二种情形中,您将以前获得的比例装入期望概率数组($ExpProb),并使用它们来计算每个回答选项的期望频率值。 清单 6 显示了用于检测偏好变化的啤酒民意测验分析代码: 清单 6. 检测偏好的变化 <?php // beer_repoll_analysis.php require_once "../init.php"; require PHP_MATH . "chi/ChiSquare1D_HTML.php"; $Headings = array("Keiths", "Olands", "Schooner", "Other"); $ObsFreq = array(385, 350, 315, 350); $Alpha = 0.05; $ExpProb = array(.285, .250, .215, .250); $Chi = new ChiSquare1D_HTML($ObsFreq, $Alpha, $ExpProb); $Chi->showTableSummary($Headings); echo "<br><br>"; $Chi->showChiSquareStats(); ?> 表 5 和 6 显示了 beer_repoll_analysis.php 脚本生成的 HTML 输出: 表 5. 运行 beer_repoll_analysis.php 而获得的期望频率和方差 Keiths Olands Schooner 其它 合计 观察值 385 350 315 350 1400 期望值 399 350 301 350 1400 方差 0.49 0.00 0.65 0.00 1.14 表 6. 运行 beer_repoll_analysis.php 所获得的各种 X 平方分布统计信息统计 DF 获得值 概率 临界值 X 平方分布 3 1.14 0.77 7.81 表 6 表明,在虚假设条件下,获得 X 平方分布值 1.14 的概率是 77%。我们不能排除这样的虚假设,即自从上一次民意测验以来,新斯科舍省啤酒消费者偏好已经发生了变化。观察频率和期望频率之间的任何差异都可以解释为新斯科舍省相同啤酒消费者的期望抽样可变性。考虑到最初民意测验结果的转换只是通过向前面每个民意测验结果添加常数 100 完成的,那么这种零发现也不应当有什么令人吃惊的地方了。
但是,您可以设想结果已经发生了变化,并且设想这些结果可能暗示着另一种品牌的啤酒正在变得更加流行(请注意表 5 中每列底部报告的方差大小)。您可以进一步设想这一发现对所讨论的酿酒厂的财务方面有显著的含义,因为酒吧老板往往会采购酒吧里最畅销的啤酒。 这些结果将受到酿酒厂老板极其详细的检查,他们会对分析过程和实验方法的适合性提出疑问;特别地,他们会对样本的代表性提出疑问。如果您打算进行一次 Web 实验,该实验可能具有重要的实际含义,那么,对于用来收集数据的实验方法和用来从数据得出推论的分析技术,您需要给予同等的关注。
因此,本文不仅为您奠定了一个良好的基础,以便于可以加强您对 Web 数据的有效理解,它还提供了一些建议,这些建议是有关如何保护您的统计检验选择的,并且使得从数据获得的结论更具合理性。 应用学到的知识 在本文中,您已经了解了如何将推论统计学应用于普遍存在的用于汇总 Web 数据流的频率数据,侧重于 Web 民意测验数据的分析。
但是,所讨论的简单的单向 X 平方分布分析过程也能够有效地应用于其它类型的数据流(访问日志、调查结果、客户概要信息和客户订单),以便将原始数据转换成有用的知识。 在将推论统计学应用于 Web 数据时,我还介绍了希望将数据流视作 Web 实验的结果,以便于在作推论时提高引用实验设计考虑事项的可能性。通常由于您对于数据采集的过程缺乏足够的控制,因此您不能做出推论。
但是,如果在将实验的设计原则应用于 Web 数据收集过程时您更加主动(例如,在您的 Web 民意测验过程中随机选择投票者),那么可以改变这种情形。
最后,我演示了如何模拟不同自由度的 X 平方分布的抽样分布,而不只是仅说明其来源。在这样做的过程中,对于测量类别的期望频率小于 5(换而言之,即小 N 实验)― 我还演示了一种变通方法(使用小 $NTrials 值模拟实验的抽样分布)来禁止使用 X 平方分布检验。
因此,我不只是使用研究过程中的 df 来计算样本结果的概率,对于数量较小的尝试,可能还需要使用 $NTrials 值作为参数来求得所观察 X 平方分布结果的概率。
考虑您可能会如何分析小 N 实验是值得的,因为您通常可能希望在数据采集完成之前分析您的数据 ― 当每次观察的代价都很昂贵时,当观察需要花费很长时间才能获得时,或者只是因为您很好奇。在尝试这一级别的 Web 数据分析时,最好谨记下面这两个问题: *您是否有理由在小 N 条件下进行推论? *模拟有助于您决定在这些环境下获得什么推论吗?
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
CDA 数据分析师证书考取全攻略 在数字化浪潮汹涌的当下,数据已成为企业乃至整个社会发展的核心驱动力。数据分析师作 ...
2025-06-25人工智能在数据分析的应用场景 在数字化浪潮席卷全球的当下,数据以前所未有的速度增长,传统的数据分析方法逐渐难以满足海 ...
2025-06-25评估模型预测为正时的准确性 在机器学习与数据科学领域,模型预测的准确性是衡量其性能优劣的核心指标。尤其是当模型预测结 ...
2025-06-25CDA认证:数据时代的职业通行证 当海通证券的交易大厅里闪烁的屏幕实时跳动着市场数据,当苏州银行的数字金融部连夜部署新的风控 ...
2025-06-24金融行业的大数据变革:五大应用案例深度解析 在数字化浪潮中,金融行业正经历着深刻的变革,大数据技术的广泛应用 ...
2025-06-24Power Query 中实现移动加权平均的详细指南 在数据分析和处理中,移动加权平均是一种非常有用的计算方法,它能够根据不同数据 ...
2025-06-24数据驱动营销革命:解析数据分析在网络营销中的核心作用 在数字经济蓬勃发展的当下,网络营销已成为企业触达消费者 ...
2025-06-23随机森林模型与 OPLS-DA 的优缺点深度剖析 在数据分析与机器学习领域,随机森林模型与 OPLS-DA(正交偏最小二乘法判 ...
2025-06-23CDA 一级:开启数据分析师职业大门的钥匙 在数字化浪潮席卷全球的今天,数据已成为企业发展和决策的核心驱动力,数据分析师 ...
2025-06-23透视表内计算两个字段乘积的实用指南 在数据处理与分析的过程中,透视表凭借其强大的数据汇总和整理能力,成为了众多数据工 ...
2025-06-20CDA 一级考试备考时长全解析,助你高效备考 CDA(Certified Data Analyst)一级认证考试,作为数据分析师领域的重要资格认证, ...
2025-06-20统计学模型:解锁数据背后的规律与奥秘 在数据驱动决策的时代,统计学模型作为挖掘数据价值的核心工具,发挥着至关重要的作 ...
2025-06-20Logic 模型特征与选择应用:构建项目规划与评估的逻辑框架 在项目管理、政策制定以及社会服务等领域,Logic 模型(逻辑模型 ...
2025-06-19SPSS 中的 Mann-Kendall 检验:数据趋势与突变分析的利器 在数据分析的众多方法中,Mann-Kendall(MK)检验凭借其对数据分 ...
2025-06-19CDA 数据分析能力与 AI 的一体化发展关系:重塑数据驱动未来 在数字化浪潮奔涌的当下,数据已然成为企业乃至整个社会发展进 ...
2025-06-19CDA 干货分享:统计学的应用 在数据驱动业务发展的时代浪潮中,统计学作为数据分析的核心基石,发挥着无可替代的关键作用。 ...
2025-06-18CDA 精益业务数据分析:解锁企业增长新密码 在数字化浪潮席卷全球的当下,数据已然成为企业最具价值的资产之一。如何精准地 ...
2025-06-18CDA 培训:开启数据分析师职业大门的钥匙 在大数据时代,数据分析师已成为各行业竞相争夺的关键人才。CDA(Certified Data ...
2025-06-18CDA 人才招聘市场分析:机遇与挑战并存 在数字化浪潮席卷各行业的当下,数据分析能力成为企业发展的核心竞争力之一,持有 C ...
2025-06-17CDA金融大数据案例分析:驱动行业变革的实践与启示 在金融行业加速数字化转型的当下,大数据技术已成为金融机构提升 ...
2025-06-17