京公网安备 11010802034615号
经营许可证编号:京B2-20210330
互联网大数据应用:浅谈用户行为分析
写在前面的话,笔者最近一直想写一写关于大数据的博客与大家讨论,但是大数据本身并不是笔者刘三德关注的主要方向,因此一直唯恐写得太浅或太局限而缺乏价值。最近看了谢老师的一篇“聚沙成塔 集腋成裘——四谈大数据时代”文章,通读全文以后笔者认为其文学价值要大于实用价值,因此笔者对于谢老师的文采还是比较赞赏的。当然,若此文放在三四年前的互联网,也较能彰显其价值。但是对于今日的互联网和移动互联网,大数据的规模和应用深度早已不次于传统的电信、民航等行业,甚至超过不少。因此笔者还是想写些东西浅谈一下互联网的大数据应用,权当抛砖引玉,也希望更多的朋友参与交流和讨论。
近日,又看到一则新闻,文中来自国外同行的分析观点,称“互联网大数据蕴藏的财富堪比石油”。可能有些朋友会感觉有些夸大,笔者一度也是如此认为。但后来转念一想,就像在前文提到的,苹果的app store通过用户的下载等行为,可能做到比用户自身还要了解其客观喜好一样。每一个个体的人有的时候,不一定那么了解自己,上升到社会层次,在一个范围内的人类群体,有些时候也不一定那么了解自身。而通过分析很多用户的行为以及因应效果,应该是可以做到某些方面的趋势预测的。关于预测,笔者刘三德计划在接下来的文章中再去讨论,本文主要从互联网大数据分析的重点——“用户行为分析”入手简单谈一下认识。
在很多前辈和业内朋友的文章中,谈到互联网大数据,其实很多的都是提到了用户行为这个最典型的数据系统。目前众多的大数据来源中最为重要也最有价值的两类应属于:“行为”与“内容”——基于用户身份系统之上产生的两类数据。
由于互联网用户行为比较多种多样,而且在不同功能、不同体验的产品上也有很大不同,因此,要以一篇文章概述所有的用户行为构成还是很难的,而且由于关注产品和范围有限,笔者也很难总结全面所有的互联网用户行为构成和其特性。但本着少谈大方向和大趋势多谈实际应用的想法,仍然希望本文能够从一些简单的,具有共性和通用性的典型互联网用户行为入手做一些讨论。
目前,互联网用户的主要接入媒介分为:PC 和手机、智能平板等移动和不可移动终端。而用户行为的产生方式和载体来源一般包括以下几点:
1. 眼球,眼动行为。基于此种用户行为的分析在国外还是比较流行的,老外对于用户的研究可以说更加先进和倾向于极致。目前在国内的很多领域也有类似用户研究的应用,感兴趣的朋友可以去搜下。通过研究用户的眼球移动和停留等,产品设计师可以更容易了解界面上哪些元素更受用户关注,哪些元素设计得合理或不合理等。此外,通过优化多个用户操作界面也可以相应的优化用户操作体验流程。
2.鼠标,点击和移动行为。从鼠标诞生之后,互联网上最多的用户行为应该都是通过鼠标来完成的,因此,分析用户行为时分析鼠标是必须要分析的。除了鼠标点击行为以外,鼠标的移动轨迹也可以被记录和分析。目前国内外很多大公司都有自己的系统,用于记录和统计不同程度上的用户鼠标行为。此外,据了解,目前国内的很多第三方统计网站也可以为中小网站和企业提供鼠标移动轨迹等记录。
3.键盘等其它设备的输入行为。此类设备主要是为了满足鼠标不能通过简单点击等进行的如大量内容输入等场景。键盘的输入行为不是用户行为分析的重点,但键盘产生的内容确是大数据应用中内容分析的重点。
4.其它终端的触摸和点击等行为。此类设备目前主要是作为鼠标和键盘的替代品,在大多产品中都是如此。但新兴的多点触控等技术将能够产生更加复杂的用户行为,在某些特定产品中,也有必要对此类行为进行记录和分析的。
基于以上媒介,用户在不同的产品上可以产生千奇百怪,形形色色的行为。我们就可以通过对这些行为的记录和分析更好的在产品设计、产品运营、产品市场与盈利、用户体验、用户需求等互联网产品的关键点之间进行权衡。
对于用户产生的行为,笔者刘三德认为可以从两个大方向分:消费行为、贡献行为。从技术层面上讲,前者主要是输出——数据下行,后者主要是输入——数据上行。虽然实际应用中,并不是如此简单,有很多时候我们可以看到用户的消费和贡献行为并不是那么清晰可分的,有的时候用户的消费行为本身就是一种贡献!所以,在总结用户的贡献行为时,除了用户的直接贡献行为以外,将另一类贡献行为称之为——群体和持续性消费行为而产生的贡献行为。
图:互联网用户行为简析(作者:刘三德)
还是之前那个观点,互联网的大数据不是一定要复杂才可以称作大数据。在一维的层次来看,都是直接数据,而且大多都是最简单的数据记录集合。在上图中,试着将互联网典型的用户行为进行了一定的分类和归纳,必定也不够全面,而且图中标出的用户行为也基本都是一维的直接用户行为。但是通过对这些数据进行不同方法的建模和推导分析,则可以得出千变万化的数据结果——这才是真正的互联网大数据应用。
那么基于用户行为分析,我们可以做什么?——这是核心问题,也就是我们做大数据分析的目的,为了什么?
其实,如果一直在参与互联网产品生产流程的业内朋友必然都了解,互联网产品生产的大致流程和一些关键的部门构成:产品部门、技术部门、运营部门、市场部门、此外还有一个大部门叫做BOSS(老板的决策层)。其中产品和技术部门是主要的产品生产部门,运营和市场部门则是将产品进行推广和盈利的部门。而这些部门构成的生产流程中又会有很多关键的细节,其中每一个点如果都有量化数据的支持,无疑将对决策产生很大的指导和斧正作用。我们试着从其中挑选几个步骤和应用场景简要举例:
1. 产品设计与营销。产品经理和设计师不是万能的,也不一定都是人中的人精——乔布斯只诞生了一个。要做好的产品设计,就要不断的听取用户意见,不断的调研用户需求并进行分析,得到最适合和满足用户需求和产品特性。除了直接的用户调研,数据分析得到的结果支持是很重要的一个渠道。因为有的时候,用户也不知道他到底想要什么,但是从用户的行为中,我们或许可以分析出来他不了解的自己。比如通过对微博用户分析,得知用户在每天的四个时间点:早起去上班的路上、午饭时间、晚饭时间、睡觉前 是最活跃的。因此,掌握了这些用户行为,企业就可以在对应的时间段做某些针对性的推广和营销等。
2. 产品客户群定位或细分。并不是所有的产品都是服务于全网用户的,即使对于细分产品,也是有更细致和精确的用户特性可以供提炼分析。除了前文用户资料系统之外,用户行为是更重要的一个分析手段。比如对于电商网站,通过对用户的消费行为和贡献行为产生的数据进行分析,可以量化很多指标服务于各个生产和营销环节。比如我们常说的:转化率、客单价、购买频率、平均毛利率、用户满意度等一系列量化的指标。
3. 商业分析与盈利模式调整。目前比较流行的一个词是商业智能,在大家通常所提及的商业智能应用中,最重要的一个数据来源就是用户行为。由于商业智能本身是一个很大的话题,本文不再细致讨论,目前商业智能的应用在国内的互联网领域已有不少应用,很多应用在大公司和消费类产品平台上。
4. 推荐系统。这是一个存在一些争议的话题,有人看好有人唱衰。据笔者刘三德了解,商业智能中很重要的一个应用案例就是推荐系统。后续有时间的话,愿意和感兴趣的朋友一起讨论下推荐系统相关。
最近几年,互联网的产品呈现出一轮爆发性发展态势。尤其是移动终端的普及,使得很多传统的互联网产品也开始移动化。但截止目前来看,笔者认为产品载体的丰富对于很多传统的互联网产品来说,并没有带来质的改变,移动终端的产品大多是互联网已有形态的延伸。也就是说移动互联网的很多产品在用户行为的统计和利用上,仍与传统的互联网区别不大——从这个角度来说,我们没有落伍。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在构建前向神经网络(Feedforward Neural Network,简称 FNN)时,“隐藏层数目设多少?每个隐藏层该放多少个神经元?” 是每个 ...
2025-10-29这个问题切中了 Excel 用户的常见困惑 —— 将 “数据可视化工具” 与 “数据挖掘算法” 的功能边界混淆。核心结论是:Excel 透 ...
2025-10-29在 CDA(Certified Data Analyst)数据分析师的工作中,“多组数据差异验证” 是高频需求 —— 例如 “3 家门店的销售额是否有显 ...
2025-10-29在数据分析中,“正态分布” 是许多统计方法(如 t 检验、方差分析、线性回归)的核心假设 —— 数据符合正态分布时,统计检验的 ...
2025-10-28箱线图(Box Plot)作为展示数据分布的核心统计图表,能直观呈现数据的中位数、四分位数、离散程度与异常值,是质量控制、实验分 ...
2025-10-28在 CDA(Certified Data Analyst)数据分析师的工作中,“分类变量关联分析” 是高频需求 —— 例如 “用户性别是否影响支付方式 ...
2025-10-28在数据可视化领域,单一图表往往难以承载多维度信息 —— 力导向图擅长展现节点间的关联结构与空间分布,却无法直观呈现 “流量 ...
2025-10-27这个问题问到了 Tableau 中两个核心行级函数的经典组合,理解它能帮你快速实现 “相对位置占比” 的分析需求。“index ()/size ( ...
2025-10-27对 CDA(Certified Data Analyst)数据分析师而言,“假设检验” 绝非 “套用统计公式的机械操作”,而是 “将模糊的业务猜想转 ...
2025-10-27在数字化运营中,“凭感觉做决策” 早已成为过去式 —— 运营指标作为业务增长的 “晴雨表” 与 “导航仪”,直接决定了运营动作 ...
2025-10-24在卷积神经网络(CNN)的训练中,“卷积层(Conv)后是否添加归一化(如 BN、LN)和激活函数(如 ReLU、GELU)” 是每个开发者都 ...
2025-10-24在数据决策链条中,“统计分析” 是挖掘数据规律的核心,“可视化” 是呈现规律的桥梁 ——CDA(Certified Data Analyst)数据分 ...
2025-10-24在 “神经网络与卡尔曼滤波融合” 的理论基础上,Python 凭借其丰富的科学计算库(NumPy、FilterPy)、深度学习框架(PyTorch、T ...
2025-10-23在工业控制、自动驾驶、机器人导航、气象预测等领域,“状态估计” 是核心任务 —— 即从含噪声的观测数据中,精准推断系统的真 ...
2025-10-23在数据分析全流程中,“数据清洗” 恰似烹饪前的食材处理:若食材(数据)腐烂变质、混杂异物(脏数据),即便拥有精湛的烹饪技 ...
2025-10-23在人工智能领域,“大模型” 已成为近年来的热点标签:从参数超 1750 亿的 GPT-3,到万亿级参数的 PaLM,再到多模态大模型 GPT-4 ...
2025-10-22在 MySQL 数据库的日常运维与开发中,“更新数据是否会影响读数据” 是一个高频疑问。这个问题的答案并非简单的 “是” 或 “否 ...
2025-10-22在企业数据分析中,“数据孤岛” 是制约分析深度的核心瓶颈 —— 用户数据散落在注册系统、APP 日志、客服记录中,订单数据分散 ...
2025-10-22在神经网络设计中,“隐藏层个数” 是决定模型能力的关键参数 —— 太少会导致 “欠拟合”(模型无法捕捉复杂数据规律,如用单隐 ...
2025-10-21在特征工程流程中,“单变量筛选” 是承上启下的关键步骤 —— 它通过分析单个特征与目标变量的关联强度,剔除无意义、冗余的特 ...
2025-10-21