京公网安备 11010802034615号
经营许可证编号:京B2-20210330
假定过一段时间后,您打算对新斯科舍省的啤酒消费者进行另一次 Web 民意测验。您再次询问他们喜爱的啤酒品牌,现在观察到下列结果: 表 4. 新的啤酒民意测验 Keiths Olands Schooner 其它 385 (27.50%) 350 (25.00%) 315 (22.50%) 350 (25.00%) 旧的数据如下所示: 表 1. 旧的啤酒民意测验(再一次显示) Keiths Olands Schooner 其它 285 (28.50%) 250 (25.00%) 215 (21.50%) 250 (25.00%) 民意测验结果之间的明显区别在于,第一次民意测验有 1,000 个调查对象,而第二次有 1,400 个调查对象。这些额外调查对象的主要影响是,使得每个回答情形的频率计数增加了 100 点。
当准备好对新的民意测验进行分析时,可以利用缺省的方法 ― 计算期望频率来分析数据,也可以利用每个结果的期望概率(基于前一次民意测验所观察到的比例)来初始化分析。在第二种情形中,您将以前获得的比例装入期望概率数组($ExpProb),并使用它们来计算每个回答选项的期望频率值。 清单 6 显示了用于检测偏好变化的啤酒民意测验分析代码: 清单 6. 检测偏好的变化 <?php // beer_repoll_analysis.php require_once "../init.php"; require PHP_MATH . "chi/ChiSquare1D_HTML.php"; $Headings = array("Keiths", "Olands", "Schooner", "Other"); $ObsFreq = array(385, 350, 315, 350); $Alpha = 0.05; $ExpProb = array(.285, .250, .215, .250); $Chi = new ChiSquare1D_HTML($ObsFreq, $Alpha, $ExpProb); $Chi->showTableSummary($Headings); echo "<br><br>"; $Chi->showChiSquareStats(); ?> 表 5 和 6 显示了 beer_repoll_analysis.php 脚本生成的 HTML 输出: 表 5. 运行 beer_repoll_analysis.php 而获得的期望频率和方差 Keiths Olands Schooner 其它 合计 观察值 385 350 315 350 1400 期望值 399 350 301 350 1400 方差 0.49 0.00 0.65 0.00 1.14 表 6. 运行 beer_repoll_analysis.php 所获得的各种 X 平方分布统计信息统计 DF 获得值 概率 临界值 X 平方分布 3 1.14 0.77 7.81 表 6 表明,在虚假设条件下,获得 X 平方分布值 1.14 的概率是 77%。我们不能排除这样的虚假设,即自从上一次民意测验以来,新斯科舍省啤酒消费者偏好已经发生了变化。观察频率和期望频率之间的任何差异都可以解释为新斯科舍省相同啤酒消费者的期望抽样可变性。考虑到最初民意测验结果的转换只是通过向前面每个民意测验结果添加常数 100 完成的,那么这种零发现也不应当有什么令人吃惊的地方了。
但是,您可以设想结果已经发生了变化,并且设想这些结果可能暗示着另一种品牌的啤酒正在变得更加流行(请注意表 5 中每列底部报告的方差大小)。您可以进一步设想这一发现对所讨论的酿酒厂的财务方面有显著的含义,因为酒吧老板往往会采购酒吧里最畅销的啤酒。 这些结果将受到酿酒厂老板极其详细的检查,他们会对分析过程和实验方法的适合性提出疑问;特别地,他们会对样本的代表性提出疑问。如果您打算进行一次 Web 实验,该实验可能具有重要的实际含义,那么,对于用来收集数据的实验方法和用来从数据得出推论的分析技术,您需要给予同等的关注。
因此,本文不仅为您奠定了一个良好的基础,以便于可以加强您对 Web 数据的有效理解,它还提供了一些建议,这些建议是有关如何保护您的统计检验选择的,并且使得从数据获得的结论更具合理性。 应用学到的知识 在本文中,您已经了解了如何将推论统计学应用于普遍存在的用于汇总 Web 数据流的频率数据,侧重于 Web 民意测验数据的分析。
但是,所讨论的简单的单向 X 平方分布分析过程也能够有效地应用于其它类型的数据流(访问日志、调查结果、客户概要信息和客户订单),以便将原始数据转换成有用的知识。 在将推论统计学应用于 Web 数据时,我还介绍了希望将数据流视作 Web 实验的结果,以便于在作推论时提高引用实验设计考虑事项的可能性。通常由于您对于数据采集的过程缺乏足够的控制,因此您不能做出推论。
但是,如果在将实验的设计原则应用于 Web 数据收集过程时您更加主动(例如,在您的 Web 民意测验过程中随机选择投票者),那么可以改变这种情形。
最后,我演示了如何模拟不同自由度的 X 平方分布的抽样分布,而不只是仅说明其来源。在这样做的过程中,对于测量类别的期望频率小于 5(换而言之,即小 N 实验)― 我还演示了一种变通方法(使用小 $NTrials 值模拟实验的抽样分布)来禁止使用 X 平方分布检验。
因此,我不只是使用研究过程中的 df 来计算样本结果的概率,对于数量较小的尝试,可能还需要使用 $NTrials 值作为参数来求得所观察 X 平方分布结果的概率。
考虑您可能会如何分析小 N 实验是值得的,因为您通常可能希望在数据采集完成之前分析您的数据 ― 当每次观察的代价都很昂贵时,当观察需要花费很长时间才能获得时,或者只是因为您很好奇。在尝试这一级别的 Web 数据分析时,最好谨记下面这两个问题: *您是否有理由在小 N 条件下进行推论? *模拟有助于您决定在这些环境下获得什么推论吗?
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在统计学分析、实验研究、业务数据复盘过程中,单因素方差分析是检验自变量对因变量是否存在显著影响的核心方法。其中,两个水平 ...
2026-05-26【核心关键词】算法、客户、大数据、互联网、调优、建模、模型优化、机器学习、评分卡模型、模型开发、智能风控、业务场景、数 ...
2026-05-26 很多数据分析师写过无数个 SELECT,但当被问到“新建一张表,该如何定义字段类型来保证数据质量”“创建视图和存储物理表有 ...
2026-05-26在数据清洗、统计分析与数据质量检测工作中,箱型图(又称箱线图、Box Plot)是最直观、最高效的可视化分析工具之一。相较于柱状 ...
2026-05-25在大数据分析、数据清洗、质量管控、风险监测等领域,异常数据识别是保障数据质量、确保分析结论精准、规避业务决策失误的核心基 ...
2026-05-25 很多数据分析师精通Excel函数和透视表,但当被问到“数据从哪里来”“表和视图有什么区别”“数据库管理系统和SQL是什么关系 ...
2026-05-25数字化经营时代,企业的市场竞争早已从经验决策转向数据决策。门店营收、用户转化、产品销量、成本损耗、存量资产等所有经营行为 ...
2026-05-22在MySQL数据库日常运维、业务数据校验、数据迁移与数据清洗场景中,自增主键ID的连续性校验是一项基础且关键的工作。MySQL的Auto ...
2026-05-22 很多企业团队并非缺乏指标,而是陷入“指标失控”:仪表盘上堆满实时跳动的数据,却无法回答“当前瓶颈在哪、下一步该做什么 ...
2026-05-22【核心关键词】大数据、可视化、存储、架构、客户、离线、产品、同步、实时、数据仓库、数据分析、数据可视化、存储数据、离线 ...
2026-05-21在电商流量红利消退、公域获客成本持续走高的当下,存量用户深度挖掘已成为店铺增收增效的核心抓手。相较于付费投放获取的陌生新 ...
2026-05-21 很多数据分析师每天盯着几十个指标,但当被问到“这套指标要支撑什么业务目标”“指标之间是什么逻辑关系”“业务变化时如何 ...
2026-05-21在数据驱动决策的时代,数据质量直接决定分析结果的可靠性与准确性,而异常值作为数据清洗中的核心痛点,往往会扭曲分析结论、误 ...
2026-05-20 很多数据分析师每天盯着GMV、DAU、转化率,但当被问到“哪些指标在所有行业都适用”“哪些指标只对电商有意义”“二者如何搭 ...
2026-05-20Agent的能力边界,很大程度上取决于其掌握的Skill质量和数量。传统做法是靠人工编写和维护Skill,但这条路很快会遇到瓶颈。业务 ...
2026-05-20在统计分析中,方差分析(ANOVA)是一种常用的假设检验方法,核心用于分析“一个或多个自变量对单个因变量的影响”,广泛应用于 ...
2026-05-19 很多数据分析师每天盯着GMV、DAU、转化率,但当被问到“什么是指标”“指标和维度有什么区别”“如何定义指标值的计算规则和 ...
2026-05-19想高效备考 CDA 一级,拒绝盲目刷题、冗余学习?《CDA 一级教材知识手册》重磅来袭!以官方教材为核心,浓缩 13 章 103 个核心考 ...
2026-05-19在数据统计分析中,卡方检验是一种常用的非参数检验方法,核心用于判断两个或多个分类变量之间是否存在显著关联,广泛应用于市场 ...
2026-05-18在企业数字化转型的浪潮中,很多企业陷入了“技术堆砌”的误区——上线了ERP、CRM、BI等各类系统,积累了海量数据,却依然面临“ ...
2026-05-18