京公网安备 11010802034615号
经营许可证编号:京B2-20210330
数据分析中,文本分析远比数值型分析重要
本文从业务的角度来谈谈基于大数据的文本分析及其在商业场景中的应用,后面会附上一些实例及开放的工具,力求让理论落地,服务于实践。本文是《数据分析中,文本分析远比数值型分析重要!》的上篇,聊的是文本分析的一些基本知识,下篇将以一个实际案例来聊聊基于大数据的文本分析是如何应用在商业场景中的。
在我们日常的产品和运营工作中,经常接触的数据分析方法、形式绝大部分是基于对数字(值)的描述性分析,如销量情况、用户增长情况、留存情况和转化情况等,高级一些的数据分析方法有因子分析、聚类分析和回归分析等方法(见下图)。
常用的数据分析方法/形式
这些分析方法/形式有一个共同点:都是跟数字在打交道,说的专业一点,就是基于对结构性数据(即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据)的分析,比如姓名、性别、年龄这些信息,以Word、Excel等形式呈现的数据。这种类别的数据比较好处理,只要简单的建立一个对应的表就可以了。
典型的结构性数据表格
然而,数据分析仅仅只有这一种类型吗?答案当然是:
NO~
一个完整而清晰的数据分析过程,除了在范围上,要进行宏观和微观的分析外,还需要在分析的层次上有所递进和深入,以下是我们进行数据分析时常会考虑到7个维度。(见下图)。
数据分析的7个维度
在上图中,对数值型数据的分析能覆盖绝大部分的维度,但它更多的是描述事物的表层现象,主要是在事物的“量”上进行描述。也就是说,对数值型数据的分析并不能回答其中最为重要的一个维度---“Why”,但在产品和运营的实际工作中,发掘出用户的喜好、购买/使用及流失的内在原因(也就是洞察用户的行为动机),对我们的工作至关重要,它会直接影响产品的功能设定和运营策略。
这时,对非结构性数据进行分析的需求呼之欲出。
据国际数据公司(IDC)的在2011年的调查显示,在今后十年里,非结构化数据将占所有产生的互联网数据的90%。而作为一个尚未得到充分开发的“信息金矿”,非结构化数据分析可以揭示出,我们之前所认为的异常复杂、且难以捉摸的诸多商业驱动因素间的重要相关关系。
所以,我们有必要对非结构性数据引起高度重视!!!
先等等,什么是非结构性数据呢?
非结构性数据是与结构性数据相对的一个概念,它包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等。
非结构性数据组成部分
本文所提及的非结构性数据特指文本数据,这里包括且不限于社交网络(微博、微信、QQ和脉脉等)、客户反馈(客户抱怨邮件、社交媒体网站的帖子、开放式问卷调查、消费者点评)新闻媒体、销售人员的拜访记录等。
文本分析的目的在于从根本上把所有的非结构化数据整合从而化为结构化数据,从之前被认为难以量化的海量文本中抽取出大量有价值的、有意义的数据或信息。
So,对文本数据进行分析,我们能得到哪些有价值的商业线索或洞察呢?
文本数据来源异常广泛且多样,很多时候需要搜索海量的网页。当然,只有基于恒河沙数般体量的大数据文本分析,才有可能得出比较可靠、有说服力的商业insight。
所以,“文本分析”常常被冠以“大数据文本分析”的全名。
“文本分析”,或者“语义分析”通过分析海量的非结构性的文本(信息)数据,得出的不仅是关于“是什么”的描述性分析,更多的回答了“为什么”,即目标用户购买和使用产品的潜在动机/真实需求。
在商业实践中,基于大数据的文本分析被广泛应用于各行各业,利用认知技术获得全新的商业洞察,解决关键的知识性问题,这被IBM称为“认知商业”。例如企业可以从客户关系数据、 社交网络、 新闻网站和购物网站评论等渠道获取文本数据,进而通过计算机进行自然语言处理,从而揭示出在任何非结构化文本信息中的“4W”要素,即人物(Who)、事件(What)、时间(When)、地点(Where)等,结合其中隐藏的“Why”进行关联分析,最终得到贯穿所有业务的全新层面的商业洞见。
大数据文本分析提取出的主要维度
举例来说,某个APP的用户满意度一段时间内上升不少,可以从评论量中好评数量的增加以及服务评价几颗星来看出,但这只是描述性的分析,并不能知道为什么用户会给好评或差评,产品或服务的哪些方面会得到好评。
然而,借助大数据文本分析,我们通过提取出的“4W”要素获得对用户“Why”的理解:
什么时候用户的评论较正面,什么时候较负面(When)
用户所给的好评和差评分别集中在该APP的哪些方面(What)
哪些人评论给差评,哪些人给好评,他们在用户中的言论影响力如何(Who)
哪些地区的用户给好评/差评,这些地区的用户分别注重该APP的哪些方面(Where、What)
简而言之,基于大数据的文本分析能够揭示出潜藏在文本信息当中的趋势和关联,为商业决策、行业趋势研究和热点内容追踪提供有力支持。
那接下来的问题是:我们要去哪里找这些非结构性的文本数据呢?
社会化媒体时代,用户在购买产品/服务前,使用中,或是使用之后,一般会在互联网上表达自己的对产品的疑虑或看法,通过互联网这个平台表达社情民意,体现自身的真实意愿和产品/服务的体验感受等。
一般来说,用户产生的有价值的“发声”主要集中在如下6个 “场所”:
大数据文本信息的来源
同时,在互联网的产品和运营工作中,我们需要重点瞄向社交媒体、电商平台及APP应用市场这3个用户“言论集结地”,从上面获取用户对于产品/服务的“发声”。
社交媒体发展日益瞩目,论坛、博客、微博、微信等社交网络接踵而至,它们在悄无声息中改变着我们的生活方式。
在交互性强、容易沉淀价值信息的网络论坛上,网民们可以获得各种信息服务,同时可以发布信息、进行讨论、聊天,用发帖回帖来表达对事件、产品、品牌和企业的看法。
在容易爆发热点话题的微博上,用户除了会主动发布的微博外,还会主动追踪热点事件、喜爱的兴趣频道和明星的微博,转发和评论这些微博。
在具有强关系属性的微信上,用户会对自己关注的公众号发布的内容进行评论和转发,以此来表达自己的观点和情绪…
在这个社会化的媒体时代,用户成为企业最好的品牌推广大使。如何从这些可观的社交媒体数据中分析出用户的潜在且准确的购物意愿及用户需求,将成为提高品牌价值和声誉,改善用户体验的新兴途径。
例如,新浪微博上粉丝过万的零售商,可以根据对某条转发量极大的微博进行传播分析,从中挖掘出粉丝的性别、地域、关注的微话题、星座及兴趣标签,为粉丝个性化的去推送优惠及新品信息。
由此可见,这些看似庞大且无规则的社交数据,往往包含着大量的用户基本信息和兴趣标签,它们是绘制用户画像的绝好素材。
电子商务网站上的海量的用户言论数据隐含着巨大的信息,这些网站包括且不限于淘宝网、京东商城、亚马逊和大众点评网等主流购物、服务平台。
例如,亚马逊上的用户对某商品的评论,商家可以根据用户的评论和反馈,为用户提供定制性的服务,甚至可以预测用户的需求,从而达到更加准确的销售目的。
移动互联网时代诞生了的APP,这些APP除了“挂”在自家的官方网站以外,更多的是分布于第三方应用市场(如苹果商店、91助手、豌豆荚、小米应用市场、百度手机助手等),这时收集用户的大量吐槽对于改善APP的用户体验至关重要。通过对用户大量评论的文本分析,我们可以第一时间了解到产品的哪些方面是用户喜欢的,哪些方面是用户比较嫌弃的,哪些是无关痛痒的“伪需求”,力求在短时间内改善产品的功能与设计。
综上所述,相关文本数据的来源多样,而且覆盖了非常广泛的话题。任何和产品/服务相关的陈述和评论本质上都是有用的信息,因为这些陈述可以让产品/品牌所有者了解用户的最真实的想法。
以上说的是大数据文本分析的一些原理、数据来源及其商业价值,现在笔者就从以下5点来谈谈它的实际应用场景。
大量问卷调研中的开放式问题的处理,这些开放式的问题以电子文档的形式进行存储,使计算机进行文本分析成为可能,可以在短时间内从数以万计的作答中提取出有价值的分析维度,获得对(潜在)用户的需求的洞察。
从近万份某3.15开放式问答题中提炼出的焦点话题
捕捉优秀作者的写作风格
对于一些初入新媒体运营岗位的小伙伴来说,研究和模仿某些知名自媒体作者的写作风格很有必要,学习他们的写作手法和套路可以使我们的文案写作进步神速。
要想对这些优秀作者的行文风格进行深入研究,除了熟悉他们的行文脉络和篇章结构,更要熟稔其遣词造句上的套路(包括措辞特点、常用关键词和情感倾向等),在模仿中逐步形成自己的写作风格。
如下图,对咪蒙10几篇具有代表性的文章进行文本分析,从如下各种属性的关键词,再结合对咪蒙作品的一定了解,可以得出这样的结论:咪蒙的文章里经常进行宣泄负面情绪,把粉丝心中想说却不敢说的话酣畅淋漓的表达了出来,使万千粉丝感同身受,被其感染;另一方面,她身边的人常是被吐槽和分析的对象。。。
对咪蒙10几篇具有代表性文章进行文本分析
新媒体热点采集、追踪及预测
基于大数据的文本分析能快速获取全网具有趋势传播的关键词,可以实时监测传播趋势(包括全面研究阅读数、评论数、分享量、传播趋势),并且通过分析内容属性和成功原因,预测内容在未来的传播潜力。
能够娴熟使用大数据的媒体人在未来的媒体行业才有立足之地,就如热巢网CEO穆青所强调的:
在未来的媒体竞争中,媒体人需要转型为“内容+技术”的复合型人才,一方面发挥自己在内容创作中基于人性的独立判断和分析,另一方面需要借助大数据分析技术提升文章的传播效果,进行科学的人工传播干预。
基于大数据的文本分析能快速准确的识别出企业/品牌/产品自身及竞争对手在互联网上的口碑变化,深度挖掘文本数据价值,在消费者洞察、产品研发、运营管理、市场营销、品牌战略方面,为管理决策提供科学依据。
某餐饮品牌的口碑管理
利用基于大数据的文本分析,我们可以清晰的知晓事件从始发到发酵期、发展期、高涨期、回落期和反馈期等阶段的演变过程,分析舆情的传播路径、传播节点、发展态势和受众反馈等情报。
对沪文化广播影视管理局的舆情监测
通过基于大数据的文本分析,企业可以用正确的方式阅读用户散落在网络上的“声音”,企业可以直接读懂自己用户的想法,挖掘出用户对于产品/服务的情绪和态度。比如,大数据文本分析可以回答如下问题:
用户喜欢的是它产品的哪一方面?
比起其他公司的产品来,客户是否更倾向他的产品?
这些偏好会随着时间发展和变化吗?
本文偏向于科普大数据文本分析的基本知识,下一篇将用一个生动的案例来说明,大数据文本分析是如何在互联网商业实践中体现其巨大商业价值的。
大数据离我们越来越近,从事数据运营的小伙伴们,你准备好了吗?
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
机器学习算法工程的核心价值,在于将理论算法转化为可落地、可复用、高可靠的工程化解决方案,解决实际业务中的痛点问题。不同于 ...
2026-03-18在动态系统状态估计与目标跟踪领域,高精度、高鲁棒性的状态感知是机器人导航、自动驾驶、工业控制、目标检测等场景的核心需求。 ...
2026-03-18“垃圾数据进,垃圾结果出”,这是数据分析领域的黄金法则,更是CDA(Certified Data Analyst)数据分析师日常工作中时刻恪守的 ...
2026-03-18在机器学习建模中,决策树模型因其结构直观、易于理解、无需复杂数据预处理等优势,成为分类与回归任务的首选工具之一。而变量重 ...
2026-03-17在数据分析中,卡方检验是一类基于卡方分布的假设检验方法,核心用于分析分类变量之间的关联关系或实际观测分布与理论期望分布的 ...
2026-03-17在数字化转型的浪潮中,企业积累的数据日益庞大且分散——用户数据散落在注册系统、APP日志、客服记录中,订单数据分散在交易平 ...
2026-03-17在数字化时代,数据分析已成为企业决策、业务优化、增长突破的核心支撑,从数据仓库搭建(如维度表与事实表的设计)、数据采集清 ...
2026-03-16在数据仓库建设、数据分析(尤其是用户行为分析、业务指标分析)的实践中,维度表与事实表是两大核心组件,二者相互依存、缺一不 ...
2026-03-16数据是CDA(Certified Data Analyst)数据分析师开展一切工作的核心载体,而数据读取作为数据生命周期的关键环节,是连接原始数 ...
2026-03-16在用户行为分析实践中,很多从业者会陷入一个核心误区:过度关注“当前数据的分析结果”,却忽视了结果的“泛化能力”——即分析 ...
2026-03-13在数字经济时代,用户的每一次点击、浏览、停留、转化,都在传递着真实的需求信号。用户行为分析,本质上是通过收集、整理、挖掘 ...
2026-03-13在金融、零售、互联网等数据密集型行业,量化策略已成为企业挖掘商业价值、提升决策效率、控制经营风险的核心工具。而CDA(Certi ...
2026-03-13在机器学习建模体系中,随机森林作为集成学习的经典算法,凭借高精度、抗过拟合、适配多场景、可解释性强的核心优势,成为分类、 ...
2026-03-12在机器学习建模过程中,“哪些特征对预测结果影响最大?”“如何筛选核心特征、剔除冗余信息?”是从业者最常面临的核心问题。随 ...
2026-03-12在数字化转型深度渗透的今天,企业管理已从“经验驱动”全面转向“数据驱动”,数据思维成为企业高质量发展的核心竞争力,而CDA ...
2026-03-12在数字经济飞速发展的今天,数据分析已从“辅助工具”升级为“核心竞争力”,渗透到商业、科技、民生、金融等各个领域。无论是全 ...
2026-03-11上市公司财务报表是反映企业经营状况、盈利能力、偿债能力的核心数据载体,是投资者决策、研究者分析、从业者复盘的重要依据。16 ...
2026-03-11数字化浪潮下,数据已成为企业生存发展的核心资产,而数据思维,正是CDA(Certified Data Analyst)数据分析师解锁数据价值、赋 ...
2026-03-11线性回归是数据分析中最常用的预测与关联分析方法,广泛应用于销售额预测、风险评估、趋势分析等场景(如前文销售额预测中的多元 ...
2026-03-10在SQL Server安装与配置的实操中,“服务名无效”是最令初学者头疼的高频问题之一。无论是在命令行执行net start启动服务、通过S ...
2026-03-10