京公网安备 11010802034615号
经营许可证编号:京B2-20210330
隐式挖掘网站用户行为_ 数据分析师
如何了解用户需求?根据用户是否主动参与分为显式与隐式两种挖掘模式,因为显式的动静比较大,有很大局限性,所以为了保证结果准确性以及提高用户接受度,一般都采用隐式。
用户的日常交互行为会产生四类关键数据:鼠标移动轨迹、链接点击分布、页面浏览流、页面停留时间。通过用户的行为能反映用户的观点,同时利用访问的网页次序可以找出网页之间的隐性关系。
收集数据
1. Web服务器的日志(用户会话记录)
2. Web trends或类似的第三方共享软件(客户端分析,流量分析,可用性分析)
3. 自己开发的第三方软件/插件(需求自定义)
大型网站通常会把以上三种方法组合应用,大致原理就是给进入网站的用户赋予身份识别,每次产生交互动作就向服务器发回请求,通过时间和页面判断连接各个请求点并且记录下来。(算法不讨论)
过滤数据
1. 明确目标,定义核心数据。
2. 界定用户行为,利用多数人的行为来消除个人行为的主观性。
3. 对用户进行归类,确定数据类别
大型网站每天所产生的数据量是惊人的,所以常规需求一般都是定时或定量的分析。另外,额外的数据处理会减慢网站的速度,搜集的数据越多,潜在的负面影响越大。
习惯分析
1. 对用户浏览过的页面进行内容分析,根据信息主题对页面进行聚类。
2. 聚类过程中除了考虑页面内容相近程度,还应该考虑页面路径。
3. 把用户浏览行为对其兴趣的作用列入聚类结果,得到综合评估模型。
用户兴趣分偶然和稳定两种情况,其中偶然可以认为是随机变化的,稳定的挖掘又有基于内容和行为两种方式,在内容上表现有重复度、相似度等,在行为上表现有停留时长、点此次数、拉动滚动条次数等。
实际案例
类似系统、浏览器、分辨率的客户端分析,常见而且简单,略过。
关于鼠标轨迹、点击分布的可用性例子:
1. 跟踪用户在进行检索时的鼠标移动轨迹,可以获取用户操作的先后顺序、热点功能、动作曲线等一手数据,这些都是改善或简化表单的重要参考。
2. 在重要的页面进行详细的点击分布监控统计,主要检查信息呈现的易用性,看看有没有偏离设计初衷,经常更新,找到规律。
处理特定用户行为、用户群、用户来路的任务流例子:
1. 监控分布式注册流程,能够看到有多少用户填了表单、填完了表单,或者在某个步骤有异常流失。
2. 监控不同模块入口过来的注册用户,能够统计出各模块导入的有效注册量、百分比、成功率,以便合理调配资源。
3. 监控投放广告过来的注册量、注册成功率、转换付费用户成功率,以便明确广告的投入产出比。
4. 监控用户的纵深浏览行为,是测试导航可用性很好的办法,也就是说用户会不会在你的网站内迷路?
再次强调,这里的讨论仅限于后期研究的隐式挖掘,就是不去惊动用户,不让用户察觉的方法,完全通过技术手段拿到我们想知道的数据,再通过理论分析来改进产品。
之前在某上市公司全程参与了类似系统的开发,最艰难的部分还是在如何获取数据的基础建设阶段,但终归是一劳永逸的事情,对以后的发展有益无害。(文章来自:CDA数据分析师)
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在 MySQL 实际应用中,“频繁写入同一表” 是常见场景 —— 如实时日志存储(用户操作日志、系统运行日志)、高频交易记录(支付 ...
2025-10-30为帮助教育工作者、研究者科学分析 “班级规模” 与 “平均成绩” 的关联关系,我将从相关系数的核心定义与类型切入,详解 “数 ...
2025-10-30对 CDA(Certified Data Analyst)数据分析师而言,“相关系数” 不是简单的数字计算,而是 “从业务问题出发,量化变量间关联强 ...
2025-10-30在构建前向神经网络(Feedforward Neural Network,简称 FNN)时,“隐藏层数目设多少?每个隐藏层该放多少个神经元?” 是每个 ...
2025-10-29这个问题切中了 Excel 用户的常见困惑 —— 将 “数据可视化工具” 与 “数据挖掘算法” 的功能边界混淆。核心结论是:Excel 透 ...
2025-10-29在 CDA(Certified Data Analyst)数据分析师的工作中,“多组数据差异验证” 是高频需求 —— 例如 “3 家门店的销售额是否有显 ...
2025-10-29在数据分析中,“正态分布” 是许多统计方法(如 t 检验、方差分析、线性回归)的核心假设 —— 数据符合正态分布时,统计检验的 ...
2025-10-28箱线图(Box Plot)作为展示数据分布的核心统计图表,能直观呈现数据的中位数、四分位数、离散程度与异常值,是质量控制、实验分 ...
2025-10-28在 CDA(Certified Data Analyst)数据分析师的工作中,“分类变量关联分析” 是高频需求 —— 例如 “用户性别是否影响支付方式 ...
2025-10-28在数据可视化领域,单一图表往往难以承载多维度信息 —— 力导向图擅长展现节点间的关联结构与空间分布,却无法直观呈现 “流量 ...
2025-10-27这个问题问到了 Tableau 中两个核心行级函数的经典组合,理解它能帮你快速实现 “相对位置占比” 的分析需求。“index ()/size ( ...
2025-10-27对 CDA(Certified Data Analyst)数据分析师而言,“假设检验” 绝非 “套用统计公式的机械操作”,而是 “将模糊的业务猜想转 ...
2025-10-27在数字化运营中,“凭感觉做决策” 早已成为过去式 —— 运营指标作为业务增长的 “晴雨表” 与 “导航仪”,直接决定了运营动作 ...
2025-10-24在卷积神经网络(CNN)的训练中,“卷积层(Conv)后是否添加归一化(如 BN、LN)和激活函数(如 ReLU、GELU)” 是每个开发者都 ...
2025-10-24在数据决策链条中,“统计分析” 是挖掘数据规律的核心,“可视化” 是呈现规律的桥梁 ——CDA(Certified Data Analyst)数据分 ...
2025-10-24在 “神经网络与卡尔曼滤波融合” 的理论基础上,Python 凭借其丰富的科学计算库(NumPy、FilterPy)、深度学习框架(PyTorch、T ...
2025-10-23在工业控制、自动驾驶、机器人导航、气象预测等领域,“状态估计” 是核心任务 —— 即从含噪声的观测数据中,精准推断系统的真 ...
2025-10-23在数据分析全流程中,“数据清洗” 恰似烹饪前的食材处理:若食材(数据)腐烂变质、混杂异物(脏数据),即便拥有精湛的烹饪技 ...
2025-10-23在人工智能领域,“大模型” 已成为近年来的热点标签:从参数超 1750 亿的 GPT-3,到万亿级参数的 PaLM,再到多模态大模型 GPT-4 ...
2025-10-22在 MySQL 数据库的日常运维与开发中,“更新数据是否会影响读数据” 是一个高频疑问。这个问题的答案并非简单的 “是” 或 “否 ...
2025-10-22