京公网安备 11010802034615号
经营许可证编号:京B2-20210330
在运营中,为什么文本分析远比数值型分析重要?一个实际案例,五点分析(下)
本文是《数据分析中,文本分析远比数值型分析重要!》的下篇,以一个实际案例来聊聊文本分析在实际运营中如何落地。行为脉络如下:先简要讲述文本分析的分支—情绪分析的基本原理,然后以亚马逊的Kindle Voyage的用户评论作为“情绪分析”的实操分析,最后罗列了几个实用的文本分析工具,以期对大家有所帮助。
在大数据时代还未来临前,企业一般根据自身积累的历史数据,以及一线运营人员的主观经验来猜测用户接下来的反应,以此作为制定后续营销、运营方案的依据。
然而,在这个VUCA时代(宝洁公司首席运营官Robert McDonald借用一个军事术语来描述这一新的商业世界格局,即volatility,易变性;uncertainty,不确定性;complexity,复杂性;ambiguity,模糊性),商业场景的变化速度和复杂程度今非昔比,用户的喜好也容易受外界“场景”的影响,就如“孩子的脸”和“六月的天”一样善变,先前积累的经验往往不足以作为企业下一阶段进行市场谋划和运营的依据。
VUCA时代的特征
根据《数据运营|数据分析中,文本分析远比数值型分析重要!(上)》的分析,我们可知,大数据文本分析正是应对上述困局的一剂良方。
(一)
接下来,我们将从理论到实践,聊聊文本分析是如何应用在商业实践中的。
借助基于大数据的文本分析,我们可以对用户行为和想法进行科学分析,使用户洞察由原来的主观“猜测”转变为以数据为驱动的精准预测。在新产品上市前,或者是小规模投放市场后,在社交媒体上对粉丝和潜在用户的言论进行收集,对其进行文本分析,知道他们喜欢产品的哪些方面,对哪些方面不太满意,以及他们对产品的其他期望,从而敏捷、快速、准确的对用户的反馈做出积极的回应。
由此可见,有文本分析介入的产品运营流程被“重构”了,如下图所示。
有文本分析参与的运营分析逻辑流程
其中,对用户言论进行文本分析的“精髓”在于对提炼出的文本数据的所表达出的“情绪”的解读,也就是用户言论的情绪分析。
在理解文本分析语境下的“情绪分析”前,我们先看看它的一般含义。
先说“情绪”。“情绪”这个词,在心理学中的一般含义是:对一系列主观认知经验的通称,是多种感觉、思想和行为综合产生的心理和生理状态。我们日常中最普遍的情绪就是喜、怒、忧、思、悲、恐、惊,也就是中医中所说的“七情”。
那么,“情绪分析”就是有效且准确的识别这些具体的情绪,根据得到的结果,进一步对产生于自身或者他人的情绪采取合理的应对措施(如疏导自身消极情绪、理解他人的反常行为等)。
与此类似,基于大数据文本数据的“情绪分析”,也被业界称为“观点挖掘”,它利用多样化、海量的社会化媒体做客服,借助数量庞大的社交网络平衡语料和新闻平衡语料的机器学习模型,对所获取文本中的情感倾向和评价对象进行提取,使运营者更全面、更深入地了解用户的“心声”,掌握用户对于产品的喜好程度,及用户视角下的产品优缺点。
值得注意的是,基于大数据文本的情绪分析在于深度分析评论的意义(评论的是事物的哪些方面)以及附带的情绪倾向(是“褒”是“贬”,还是“中立”),而不是评论本身在说的文字。
下面,笔者将以基于亚马逊上Kindle Voyage商品评论的文本数据为例,来聊聊文本数据的情绪分析在商业实践中的运用。
现在,笔者以亚马逊官网2014年9月份在其平台上发售的Kindle Voyage电子书阅读器珍藏限量为例,对其商品评论区的用户评论进行基于文本数据的“情绪分析”,看看我们能从中得到哪些有价值的insight,以便优化我们的运营工作。
亚马逊官网上Kindle Voyage电子书阅读器的商品详情页
分析时间段:2014.12.01~2015.06.23
数据来源:亚马逊官网上Kindle Voyage电子书阅读器商品评论区
意见领袖总数(评价者):1675人
原始评价:2720条
详细评价信息(包括对评价的“回应”,即评价的评价,如此循环):4659条
亚马逊Kindle Voyage电子书阅读器珍藏限量版评论区
(二)
笔者将从以下5个方面,即用户聚焦点分析、用户反馈趋势分析、用户情绪分析、用户反馈分析,以及各地域用户评级分布及情绪分析,对Kindle Voyage亚马逊商品评论区的4659条用户留言/评论进行文本分析。
对Kindle Voyage用户评论进行文本分析的几大模块
大数据文本分析中的“典型意见”是指,将用户的意见进行单据级别的语义聚合,将内涵相近但表述有差异的意见/看法聚合在一起,抽取出其中典型的用户反馈/意见,在短时间内迅速梳理出用户对于产品所关注的话题。
用户评论的典型意见分析
从上图可以看出,通过对这些用户留言的典型意见进行分析,再结合Kindle Voyage的商品详情描述,我们可以了解到用户对于Kindle Voyage的评价主要集中在以下7个方面:
捆绑销售策略(话题1)
限量发售策略(话题2)
屏幕显示效果(话题3)
原装配套皮套(话题4)
与其“同族兄弟”kindle Paper White的比较(话题5)
屏幕的亮度自动调节功能(话题6、话题7)
售后客服评价(话题8)
关于用户对这些话题的具体评价和情绪感受,我们需要做进一步的分析。
用户反馈趋势分析曲线展现了文本数据量在时间上的分布情况,可以从宏观上掌握上述8个话题所对应评论(量)的发展走势,以便做好及时跟进,发掘出其中有价值的言论。
下图中,从下至上,依次是话题1到话题8的评论数量随时间变化的增减趋势。其中,评论量的大小以图形面积的大小来呈现。
用户评论量随时间轴的变化趋势
可以看到,这些话题的发布数量的增减走势基本相同,且在2015-3-1达到评论高峰,2016-1-25达到小高峰,这两个时间点的前后数天的购买人数激增。然而在2016-4-24这一天商品评论区的总体评论量骤然减少,对于这几个异常点,运营人员可以调出对于日期的销售记录、商品维护日志等资料找出原因,以便对症下药,做好后续的运营工作。
这部分包含2个模块,即用户评价和情绪分析,二者存在一定的正相关关系,也就是说,用户评价较高,相应的情绪偏正面,反正亦然。
(1)用户评价分析
用户评价星级占比图
从上面2个图可知,超过63%的用户对于Kindle Voyage的产品性能是非常满意的,给出了5颗星的评价;次之的四颗星评价占到19.15%的比重,以上二者比重之和超过80%,可知Kindle Voyage总体的市场反馈非常不错。
(2)用户总体情绪倾向分析
用户的情感度分布
上图是用户对于Kindle Voyage总体情感的仪表盘,是根据用户对于Kindle Voyage的文字评论进行情绪倾向分析得出的,能反映消费者对于Kindle Voyage总体态度是肯定还是否定。该仪表盘分为3个大的方向,即负面情绪、中性情绪和正面情绪,其中暗含的用户态度就是对产品不满意、产品一般和产品很不错。
从上面2个图可以看出,购买者对于Kindle Voyage以中性评论为主,情感正面值为1.06,总体情感偏向于正面,说明大家对Kindle Voyage的真实看法与评价星级总体倾向是一致的,没有言不由衷。
上面的是全体用户对于Kindle Voyage的总体情绪倾向,但在很多时候,我们想要知道哪些用户的“发声”在这些评论中更具代表性。这就需要分析引擎在语义层面上对每个用户进行重要性排名,从中发掘出有“话语权重”较大的“意见领袖”。
更进一步,我们要对其中单个用户的情绪态度、评价和所关注的产品方面进行分析,这就涉及到以单个用户为主体的情绪倾向分析了。
以下2个图分别关注的是意见领袖(用户)情绪分析总览和单个意见领袖(用户)的详细情绪分析。从中我们可以看到评论用户的名称、评论的数量、情绪是属性及相应的情绪数值。
用户(意见领袖)情绪分析总览
如果我们想对某个重要用户的情绪进行详细分析,我们可以点开这个用户的详细资料,进行深入的分析。如下图所示:
单个意见领袖(用户)的详细情绪分析
从上图中我们可以了解到为什么该用户对Kindle Voyage持正面态度(正面情绪用红色显示)了—下面的正面关键词云显示出该用户对Kindle Voyage的手感、屏幕显示和做工质量很满意。此外,在“焦点概览”里,我们可以了解到类似的评论有8条,在哪个时间节点达到峰值。
在进行上述分析后,我们还需要进一步读懂评论区的全体用户对Kindle Voyage的反馈,知道用户喜欢它的哪些方面,对哪些方面还不是太满意,以及这些(不)满意的方面的程度如何,这是“情绪分析”中的重中之重。
所以,我们需要进行下一步分析——用户反馈分析。
这部分的原理是,从众多用户评论中提取出跟产品属性相关且有代表性的关键词,并进行相似文本聚类,然后给出相应权重,最后匹配相应的情绪属性和情绪值。最终的结果使得运营者拥有了用户视角,知晓产品有哪些地方表现尚可,哪些地方反映平平,而哪些地方是需要进行改进和完善的。
下图是用户对于Kindle Voyage使用后的评论中提取并聚类的关键词云,其中文字大小代表该词的权重(重要程度和词频),字体颜色表明该词的情绪偏向(红色是正面评价,灰色是中性评价,蓝色是负面评价)。
用户的对于Kindle Voyage评论的主要关注点
根据关键词及其重要程度排名,笔者找到了用户满意的几个方面:
屏幕显示效果良好,这一点用户很是认可,“显示效果”、“分辨率高”、“看着舒服”、“字迹清晰”等关键词显示较大,此类评价的用户居多;字体为红色,表明用户反映的情感正面积极。
产品(及周边)质量不错,体现在“做工精细”、“续航能力”、“原装皮套”、“值得拥有”、“Ipad Mini(那样的做工)”、“实体翻页键(不错)”、“一分钱一分货”等关键词上。
“限量珍藏版“这个概念牌打得好,用户也愿意为此买单,这主要体现在“限量珍藏版”这个词频较高且为红色的关键字上。
另一方面,运营方也要及时了解用户的负向反馈,针对性地改进服务质量。
还好,在这里只出现了“压敏按键”这些负面词汇,点开“压敏按键”一词,看到用户的详细吐槽……“压敏按键在按下的时候出现下陷情形……”虽然这样的反馈不多,但仍要引起高度警惕,具体排查是产品本身的设计问题,还是极个别的产品质量问题,并将此反馈传递给相关负责部门。
将用户的反馈数据和评分同步到地图上,通过形成的数据地图可以直观的看到各地对于Kindle Voyage的评价和情绪度,从而对整体的用户反馈情况进行监控,重点“关照”其中的用户差评“重灾区”。
此处选取的是Kindle Voyage在江苏省各市的用户反馈数据,反映出该地区Kindle Voyage用户对于产品的评价及情绪倾向性。
其中,数值代表评分高低,颜色反映情绪值,绿色代表良好,蓝色是一般,红色代表处于警报状态,需要重点关注,排查问题发生的具体原因。
江苏省各市Kindle Voyage用户的评分及情绪度分布
这里可以看到,徐州市、连云港市等城市的用户反馈良好,反映在评分较高,且颜色为绿色。然而,淮安市、镇江市和南京市的Kindle Voyage用户却非常不满意,评分较低且情绪度处于红色警报状态,需要引起客户体验部门的高度重要,做好用户情绪疏导和公关工作。
结语
从上面的实例中,我们可以体会到大数据文本分析对于产品、设计、营销和运营的巨大价值,它的重要性不亚于传统的结构性数据分析。用正确的方式阅读这些海量的文本数据,我们就可以直接读懂用户的想法,获得强有力的决策支持,从而使产品研发、营销推广和日常运营更贴近消费者需求,最终在用户心中形成良好的品牌形象。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
机器学习算法工程的核心价值,在于将理论算法转化为可落地、可复用、高可靠的工程化解决方案,解决实际业务中的痛点问题。不同于 ...
2026-03-18在动态系统状态估计与目标跟踪领域,高精度、高鲁棒性的状态感知是机器人导航、自动驾驶、工业控制、目标检测等场景的核心需求。 ...
2026-03-18“垃圾数据进,垃圾结果出”,这是数据分析领域的黄金法则,更是CDA(Certified Data Analyst)数据分析师日常工作中时刻恪守的 ...
2026-03-18在机器学习建模中,决策树模型因其结构直观、易于理解、无需复杂数据预处理等优势,成为分类与回归任务的首选工具之一。而变量重 ...
2026-03-17在数据分析中,卡方检验是一类基于卡方分布的假设检验方法,核心用于分析分类变量之间的关联关系或实际观测分布与理论期望分布的 ...
2026-03-17在数字化转型的浪潮中,企业积累的数据日益庞大且分散——用户数据散落在注册系统、APP日志、客服记录中,订单数据分散在交易平 ...
2026-03-17在数字化时代,数据分析已成为企业决策、业务优化、增长突破的核心支撑,从数据仓库搭建(如维度表与事实表的设计)、数据采集清 ...
2026-03-16在数据仓库建设、数据分析(尤其是用户行为分析、业务指标分析)的实践中,维度表与事实表是两大核心组件,二者相互依存、缺一不 ...
2026-03-16数据是CDA(Certified Data Analyst)数据分析师开展一切工作的核心载体,而数据读取作为数据生命周期的关键环节,是连接原始数 ...
2026-03-16在用户行为分析实践中,很多从业者会陷入一个核心误区:过度关注“当前数据的分析结果”,却忽视了结果的“泛化能力”——即分析 ...
2026-03-13在数字经济时代,用户的每一次点击、浏览、停留、转化,都在传递着真实的需求信号。用户行为分析,本质上是通过收集、整理、挖掘 ...
2026-03-13在金融、零售、互联网等数据密集型行业,量化策略已成为企业挖掘商业价值、提升决策效率、控制经营风险的核心工具。而CDA(Certi ...
2026-03-13在机器学习建模体系中,随机森林作为集成学习的经典算法,凭借高精度、抗过拟合、适配多场景、可解释性强的核心优势,成为分类、 ...
2026-03-12在机器学习建模过程中,“哪些特征对预测结果影响最大?”“如何筛选核心特征、剔除冗余信息?”是从业者最常面临的核心问题。随 ...
2026-03-12在数字化转型深度渗透的今天,企业管理已从“经验驱动”全面转向“数据驱动”,数据思维成为企业高质量发展的核心竞争力,而CDA ...
2026-03-12在数字经济飞速发展的今天,数据分析已从“辅助工具”升级为“核心竞争力”,渗透到商业、科技、民生、金融等各个领域。无论是全 ...
2026-03-11上市公司财务报表是反映企业经营状况、盈利能力、偿债能力的核心数据载体,是投资者决策、研究者分析、从业者复盘的重要依据。16 ...
2026-03-11数字化浪潮下,数据已成为企业生存发展的核心资产,而数据思维,正是CDA(Certified Data Analyst)数据分析师解锁数据价值、赋 ...
2026-03-11线性回归是数据分析中最常用的预测与关联分析方法,广泛应用于销售额预测、风险评估、趋势分析等场景(如前文销售额预测中的多元 ...
2026-03-10在SQL Server安装与配置的实操中,“服务名无效”是最令初学者头疼的高频问题之一。无论是在命令行执行net start启动服务、通过S ...
2026-03-10