
网站数据分析:那些难以实现的细分_数据分析师
如果你从事网站分析相关工作,那么你一定用过或听说过网站分析工具中的细分(Segment)功能。不得不说,用好Segment是一名合格的网站分析师必备的技能。关于Segment的重要性,恐怕无需我多言了,借用Sidney的一句话——“无细分,毋宁死!”
However,这次想跟大家分享的,是那些我认为难以实现的细分。这里需要强调下,只是“我认为”,并未向任何官方证实我的这些想法,因此请大家尽管质疑,尽管拍砖。
在用具体的案例来说明问题之前,先简单回顾下细分是如何工作的,下面引用一段Omniture官方文档中的内容,
Segmentation works by scanning through every single hit within the time period selected, checking to see if that image request matches your segmentation rules.
1. If it matches, then that hit will be part of your segment (along with additional data depending on the bucket)
2. If it does not match, the image request is thrown away and treated as if it didn’t exist in the context of the specific report you are viewing
这里要注意下,虽然平时如果你说“把Search Engine按Keyword细分”,大家都明白你的意思,但实际上,很可能潜移默化地就把多维度关联和细分两者的概念混淆了。
好了,废话不多说,直接进入正题。
在同一个会话(Session)中,用户可能对Page A产生了X个Page View(s),那么,是否可以通过细分,得到可以满足下表的数据?
Page Views of Page A | Visits |
0(未查看过Page A的访问) | |
1(查看过Page A 1次的访问) | |
2(查看过Page A 2次的访问) | |
… | |
X(查看过Page A X次的访问) |
我们先尝试第一项,0 Page Views of Page A(未查看过Page A的访问),
很容易地,我们给出了细分规则,即在所有的数据中筛选出排除了访问中访问过Page A的访问(似乎稍有拗口,在用文字表达细分规则的时候我总感觉很吃力,语言难以规范,请见谅了)。也就是说,如果某次访问中包含了Page = Page A的hit,那么,这次访问将不在细分后的数据集中。
事实上,得到这个数据如果不通过细分来实现,也是非常容易,用Total Visits – Visits of Page A,得到的结果便是完全没有访问过Page A的Visits了。
细分后,我们来看看Page A的数据情况,顺便验证下细分是否正确,
(图片已经PS处理,数据为模拟数据)
如上图所示,细分后得到的Total Visits 是9,310,750,而未细分的话,得到的Total Visits是10,041,929,两者之差正好是未细分时Page A的Visits 731,179,因此,细分成功。
顺便提一下,不要试图用下面的规则来得到这个数据,也不要试图把Visit Container修改成Page View Container,想一想为什么吧,我就先不多说了。
接着,我们继续尝试第二项任务,即细分出“看且仅看了Page A 1次的访问”。
我们可能试图用以下规则来实现,
乍一看,还真像那么回事,我们先直接看看结果如何,
(图片已经PS处理,数据为模拟数据)
有没有发现,我们所期望的“看且仅看了Page A 1次的访问”,其结果竟然与Page A Single Page Visits(访问且仅访问了Page A的访问数量)相同,这说明我们的规则:Page Views equals 1,作用于整个visit,限定了符合规则的访问必须仅包含1个Page View,而并非如我们所愿,用于限定Page A的Page Views为1 。
到这里,我想实验可以结束了,之后的任务也同样无法完成了。由于近两年较少使用GA,因此我并不确定GA中是否可以实现这样的细分,但是对于Omniture,我有至少99%的Confidence说这个细分是无法实现的(经过针对性的部署的除外)。
还没完,来试试总结出一个更具普遍性的结论:我们可以细分出某个特定变量发生过特定次数的访问/访客,但无法细分出某个特定变量的某个特定值发生过特定次数的访问/访客。
用这个结论来解释这个案例的话,那就是我们可以细分出Page变量发生过X次(Page Views = X)的访问,但无法细分出Page变量的值为A且发生过X次Page=A的访问。
这个案例就到这里结束了,如果你有任何不同意见,请尽管拍砖,我虽然很坚信这个细分确实无法实现,但我更希望我的想法是错误的。文章来源:CDA数据分析师培训官网
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
Pandas 选取特定值所在行:6 类核心方法与实战指南 在使用 pandas 处理结构化数据时,“选取特定值所在的行” 是最高频的操作之 ...
2025-09-30球面卷积神经网络(SCNN) 为解决这一痛点,球面卷积神经网络(Spherical Convolutional Neural Network, SCNN) 应运而生。它通 ...
2025-09-30在企业日常运营中,“未来会怎样” 是决策者最关心的问题 —— 电商平台想知道 “下月销量能否达标”,金融机构想预判 “下周股 ...
2025-09-30Excel 能做聚类分析吗?基础方法、进阶技巧与场景边界 在数据分析领域,聚类分析是 “无监督学习” 的核心技术 —— 无需预设分 ...
2025-09-29XGBoost 决策树:原理、优化与工业级实战指南 在机器学习领域,决策树因 “可解释性强、处理非线性关系能力突出” 成为基础模型 ...
2025-09-29在标签体系的落地链路中,“设计标签逻辑” 只是第一步,真正让标签从 “纸上定义” 变为 “业务可用资产” 的关键,在于标签加 ...
2025-09-29在使用 Excel 数据透视表进行多维度数据汇总时,折叠功能是梳理数据层级的核心工具 —— 通过点击 “+/-” 符号可展开明细数据或 ...
2025-09-28在使用 Pandas 处理 CSV、TSV 等文本文件时,“引号” 是最容易引发格式混乱的 “隐形杀手”—— 比如字段中包含逗号(如 “北京 ...
2025-09-28在 CDA(Certified Data Analyst)数据分析师的技能工具箱中,数据查询语言(尤其是 SQL)是最基础、也最核心的 “武器”。无论 ...
2025-09-28Cox 模型时间依赖性检验:原理、方法与实战应用 在生存分析领域,Cox 比例风险模型(Cox Proportional Hazards Model)是分析 “ ...
2025-09-26检测因子类型的影响程度大小:评估标准、实战案例与管控策略 在检测分析领域(如环境监测、食品质量检测、工业产品合规性测试) ...
2025-09-26CDA 数据分析师:以数据库为基石,筑牢数据驱动的 “源头防线” 在数据驱动业务的链条中,“数据从哪里来” 是 CDA(Certified D ...
2025-09-26线性相关点分布的四种基本类型:特征、识别与实战应用 在数据分析与统计学中,“线性相关” 是描述两个数值变量间关联趋势的核心 ...
2025-09-25深度神经网络神经元个数确定指南:从原理到实战的科学路径 在深度神经网络(DNN)的设计中,“神经元个数” 是决定模型性能的关 ...
2025-09-25在企业数字化进程中,不少团队陷入 “指标困境”:仪表盘上堆砌着上百个指标,DAU、转化率、营收等数据实时跳动,却无法回答 “ ...
2025-09-25MySQL 服务器内存碎片:成因、检测与内存持续增长的解决策略 在 MySQL 运维中,“内存持续增长” 是常见且隐蔽的性能隐患 —— ...
2025-09-24人工智能重塑工程质量检测:核心应用、技术路径与实践案例 工程质量检测是保障建筑、市政、交通、水利等基础设施安全的 “最后一 ...
2025-09-24CDA 数据分析师:驾驭通用与场景指标,解锁数据驱动的精准路径 在数据驱动业务的实践中,指标是连接数据与决策的核心载体。但并 ...
2025-09-24在数据驱动的业务迭代中,AB 实验系统(负责验证业务优化效果)与业务系统(负责承载用户交互与核心流程)并非独立存在 —— 前 ...
2025-09-23CDA 业务数据分析:6 步闭环,让数据驱动业务落地 在企业数字化转型中,CDA(Certified Data Analyst)数据分析师的核心价值,并 ...
2025-09-23