
数据分析中,文本分析远比数值型分析重要
本文从业务的角度来谈谈基于大数据的文本分析及其在商业场景中的应用,后面会附上一些实例及开放的工具,力求让理论落地,服务于实践。本文是《数据分析中,文本分析远比数值型分析重要!》的上篇,聊的是文本分析的一些基本知识,下篇将以一个实际案例来聊聊基于大数据的文本分析是如何应用在商业场景中的。
在我们日常的产品和运营工作中,经常接触的数据分析方法、形式绝大部分是基于对数字(值)的描述性分析,如销量情况、用户增长情况、留存情况和转化情况等,高级一些的数据分析方法有因子分析、聚类分析和回归分析等方法(见下图)。
常用的数据分析方法/形式
这些分析方法/形式有一个共同点:都是跟数字在打交道,说的专业一点,就是基于对结构性数据(即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据)的分析,比如姓名、性别、年龄这些信息,以Word、Excel等形式呈现的数据。这种类别的数据比较好处理,只要简单的建立一个对应的表就可以了。
典型的结构性数据表格
然而,数据分析仅仅只有这一种类型吗?答案当然是:
NO~
一个完整而清晰的数据分析过程,除了在范围上,要进行宏观和微观的分析外,还需要在分析的层次上有所递进和深入,以下是我们进行数据分析时常会考虑到7个维度。(见下图)。
数据分析的7个维度
在上图中,对数值型数据的分析能覆盖绝大部分的维度,但它更多的是描述事物的表层现象,主要是在事物的“量”上进行描述。也就是说,对数值型数据的分析并不能回答其中最为重要的一个维度---“Why”,但在产品和运营的实际工作中,发掘出用户的喜好、购买/使用及流失的内在原因(也就是洞察用户的行为动机),对我们的工作至关重要,它会直接影响产品的功能设定和运营策略。
这时,对非结构性数据进行分析的需求呼之欲出。
据国际数据公司(IDC)的在2011年的调查显示,在今后十年里,非结构化数据将占所有产生的互联网数据的90%。而作为一个尚未得到充分开发的“信息金矿”,非结构化数据分析可以揭示出,我们之前所认为的异常复杂、且难以捉摸的诸多商业驱动因素间的重要相关关系。
所以,我们有必要对非结构性数据引起高度重视!!!
先等等,什么是非结构性数据呢?
非结构性数据是与结构性数据相对的一个概念,它包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等。
非结构性数据组成部分
本文所提及的非结构性数据特指文本数据,这里包括且不限于社交网络(微博、微信、QQ和脉脉等)、客户反馈(客户抱怨邮件、社交媒体网站的帖子、开放式问卷调查、消费者点评)新闻媒体、销售人员的拜访记录等。
文本分析的目的在于从根本上把所有的非结构化数据整合从而化为结构化数据,从之前被认为难以量化的海量文本中抽取出大量有价值的、有意义的数据或信息。
So,对文本数据进行分析,我们能得到哪些有价值的商业线索或洞察呢?
文本数据来源异常广泛且多样,很多时候需要搜索海量的网页。当然,只有基于恒河沙数般体量的大数据文本分析,才有可能得出比较可靠、有说服力的商业insight。
所以,“文本分析”常常被冠以“大数据文本分析”的全名。
“文本分析”,或者“语义分析”通过分析海量的非结构性的文本(信息)数据,得出的不仅是关于“是什么”的描述性分析,更多的回答了“为什么”,即目标用户购买和使用产品的潜在动机/真实需求。
在商业实践中,基于大数据的文本分析被广泛应用于各行各业,利用认知技术获得全新的商业洞察,解决关键的知识性问题,这被IBM称为“认知商业”。例如企业可以从客户关系数据、 社交网络、 新闻网站和购物网站评论等渠道获取文本数据,进而通过计算机进行自然语言处理,从而揭示出在任何非结构化文本信息中的“4W”要素,即人物(Who)、事件(What)、时间(When)、地点(Where)等,结合其中隐藏的“Why”进行关联分析,最终得到贯穿所有业务的全新层面的商业洞见。
大数据文本分析提取出的主要维度
举例来说,某个APP的用户满意度一段时间内上升不少,可以从评论量中好评数量的增加以及服务评价几颗星来看出,但这只是描述性的分析,并不能知道为什么用户会给好评或差评,产品或服务的哪些方面会得到好评。
然而,借助大数据文本分析,我们通过提取出的“4W”要素获得对用户“Why”的理解:
什么时候用户的评论较正面,什么时候较负面(When)
用户所给的好评和差评分别集中在该APP的哪些方面(What)
哪些人评论给差评,哪些人给好评,他们在用户中的言论影响力如何(Who)
哪些地区的用户给好评/差评,这些地区的用户分别注重该APP的哪些方面(Where、What)
简而言之,基于大数据的文本分析能够揭示出潜藏在文本信息当中的趋势和关联,为商业决策、行业趋势研究和热点内容追踪提供有力支持。
那接下来的问题是:我们要去哪里找这些非结构性的文本数据呢?
社会化媒体时代,用户在购买产品/服务前,使用中,或是使用之后,一般会在互联网上表达自己的对产品的疑虑或看法,通过互联网这个平台表达社情民意,体现自身的真实意愿和产品/服务的体验感受等。
一般来说,用户产生的有价值的“发声”主要集中在如下6个 “场所”:
大数据文本信息的来源
同时,在互联网的产品和运营工作中,我们需要重点瞄向社交媒体、电商平台及APP应用市场这3个用户“言论集结地”,从上面获取用户对于产品/服务的“发声”。
社交媒体发展日益瞩目,论坛、博客、微博、微信等社交网络接踵而至,它们在悄无声息中改变着我们的生活方式。
在交互性强、容易沉淀价值信息的网络论坛上,网民们可以获得各种信息服务,同时可以发布信息、进行讨论、聊天,用发帖回帖来表达对事件、产品、品牌和企业的看法。
在容易爆发热点话题的微博上,用户除了会主动发布的微博外,还会主动追踪热点事件、喜爱的兴趣频道和明星的微博,转发和评论这些微博。
在具有强关系属性的微信上,用户会对自己关注的公众号发布的内容进行评论和转发,以此来表达自己的观点和情绪…
在这个社会化的媒体时代,用户成为企业最好的品牌推广大使。如何从这些可观的社交媒体数据中分析出用户的潜在且准确的购物意愿及用户需求,将成为提高品牌价值和声誉,改善用户体验的新兴途径。
例如,新浪微博上粉丝过万的零售商,可以根据对某条转发量极大的微博进行传播分析,从中挖掘出粉丝的性别、地域、关注的微话题、星座及兴趣标签,为粉丝个性化的去推送优惠及新品信息。
由此可见,这些看似庞大且无规则的社交数据,往往包含着大量的用户基本信息和兴趣标签,它们是绘制用户画像的绝好素材。
电子商务网站上的海量的用户言论数据隐含着巨大的信息,这些网站包括且不限于淘宝网、京东商城、亚马逊和大众点评网等主流购物、服务平台。
例如,亚马逊上的用户对某商品的评论,商家可以根据用户的评论和反馈,为用户提供定制性的服务,甚至可以预测用户的需求,从而达到更加准确的销售目的。
移动互联网时代诞生了的APP,这些APP除了“挂”在自家的官方网站以外,更多的是分布于第三方应用市场(如苹果商店、91助手、豌豆荚、小米应用市场、百度手机助手等),这时收集用户的大量吐槽对于改善APP的用户体验至关重要。通过对用户大量评论的文本分析,我们可以第一时间了解到产品的哪些方面是用户喜欢的,哪些方面是用户比较嫌弃的,哪些是无关痛痒的“伪需求”,力求在短时间内改善产品的功能与设计。
综上所述,相关文本数据的来源多样,而且覆盖了非常广泛的话题。任何和产品/服务相关的陈述和评论本质上都是有用的信息,因为这些陈述可以让产品/品牌所有者了解用户的最真实的想法。
以上说的是大数据文本分析的一些原理、数据来源及其商业价值,现在笔者就从以下5点来谈谈它的实际应用场景。
大量问卷调研中的开放式问题的处理,这些开放式的问题以电子文档的形式进行存储,使计算机进行文本分析成为可能,可以在短时间内从数以万计的作答中提取出有价值的分析维度,获得对(潜在)用户的需求的洞察。
从近万份某3.15开放式问答题中提炼出的焦点话题
捕捉优秀作者的写作风格
对于一些初入新媒体运营岗位的小伙伴来说,研究和模仿某些知名自媒体作者的写作风格很有必要,学习他们的写作手法和套路可以使我们的文案写作进步神速。
要想对这些优秀作者的行文风格进行深入研究,除了熟悉他们的行文脉络和篇章结构,更要熟稔其遣词造句上的套路(包括措辞特点、常用关键词和情感倾向等),在模仿中逐步形成自己的写作风格。
如下图,对咪蒙10几篇具有代表性的文章进行文本分析,从如下各种属性的关键词,再结合对咪蒙作品的一定了解,可以得出这样的结论:咪蒙的文章里经常进行宣泄负面情绪,把粉丝心中想说却不敢说的话酣畅淋漓的表达了出来,使万千粉丝感同身受,被其感染;另一方面,她身边的人常是被吐槽和分析的对象。。。
对咪蒙10几篇具有代表性文章进行文本分析
新媒体热点采集、追踪及预测
基于大数据的文本分析能快速获取全网具有趋势传播的关键词,可以实时监测传播趋势(包括全面研究阅读数、评论数、分享量、传播趋势),并且通过分析内容属性和成功原因,预测内容在未来的传播潜力。
能够娴熟使用大数据的媒体人在未来的媒体行业才有立足之地,就如热巢网CEO穆青所强调的:
在未来的媒体竞争中,媒体人需要转型为“内容+技术”的复合型人才,一方面发挥自己在内容创作中基于人性的独立判断和分析,另一方面需要借助大数据分析技术提升文章的传播效果,进行科学的人工传播干预。
基于大数据的文本分析能快速准确的识别出企业/品牌/产品自身及竞争对手在互联网上的口碑变化,深度挖掘文本数据价值,在消费者洞察、产品研发、运营管理、市场营销、品牌战略方面,为管理决策提供科学依据。
某餐饮品牌的口碑管理
利用基于大数据的文本分析,我们可以清晰的知晓事件从始发到发酵期、发展期、高涨期、回落期和反馈期等阶段的演变过程,分析舆情的传播路径、传播节点、发展态势和受众反馈等情报。
对沪文化广播影视管理局的舆情监测
通过基于大数据的文本分析,企业可以用正确的方式阅读用户散落在网络上的“声音”,企业可以直接读懂自己用户的想法,挖掘出用户对于产品/服务的情绪和态度。比如,大数据文本分析可以回答如下问题:
用户喜欢的是它产品的哪一方面?
比起其他公司的产品来,客户是否更倾向他的产品?
这些偏好会随着时间发展和变化吗?
本文偏向于科普大数据文本分析的基本知识,下一篇将用一个生动的案例来说明,大数据文本分析是如何在互联网商业实践中体现其巨大商业价值的。
大数据离我们越来越近,从事数据运营的小伙伴们,你准备好了吗?
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
用 Power BI 制作地图热力图:基于经纬度数据的实践指南 在数据可视化领域,地图热力图凭借直观呈现地理数据分布密度的优势,成 ...
2025-07-24解析 insert into select 是否会锁表:原理、场景与应对策略 在数据库操作中,insert into select 是一种常用的批量数据插入语句 ...
2025-07-24CDA 数据分析师的工作范围解析 在数字化时代的浪潮下,数据已成为企业发展的核心资产之一。CDA(Certified Data Analyst)数据分 ...
2025-07-24从 CDA LEVEL II 考试题型看 Python 数据分析要点 在数据科学领域蓬勃发展的当下,CDA(Certified Data Analyst)认证成为众多从 ...
2025-07-23用 Python 开启数据分析之旅:从基础到实践的完整指南 在数据驱动决策的时代,数据分析已成为各行业不可或缺的核心能力。而 Pyt ...
2025-07-23鸢尾花判别分析:机器学习中的经典实践案例 在机器学习的世界里,有一个经典的数据集如同引路明灯,为无数初学者打开了模式识别 ...
2025-07-23解析 response.text 与 response.content 的核心区别 在网络数据请求与处理的场景中,开发者经常需要从服务器返回的响应中提取数 ...
2025-07-22解析神经网络中 Softmax 函数的核心作用 在神经网络的发展历程中,激活函数扮演着至关重要的角色,它们为网络赋予了非线性能力, ...
2025-07-22CDA数据分析师证书考取全攻略 一、了解 CDA 数据分析师认证 CDA 数据分析师认证是一套科学化、专业化、国际化的人才考核标准, ...
2025-07-22左偏态分布转正态分布:方法、原理与实践 左偏态分布转正态分布:方法、原理与实践 在统计分析、数据建模和科学研究中,正态分 ...
2025-07-22你是不是也经常刷到别人涨粉百万、带货千万,心里痒痒的,想着“我也试试”,结果三个月过去,粉丝不到1000,播放量惨不忍睹? ...
2025-07-21我是陈辉,一个创业十多年的企业主,前半段人生和“文字”紧紧绑在一起。从广告公司文案到品牌策划,再到自己开策划机构,我靠 ...
2025-07-21CDA 数据分析师的职业生涯规划:从入门到卓越的成长之路 在数字经济蓬勃发展的当下,数据已成为企业核心竞争力的重要来源,而 CD ...
2025-07-21MySQL执行计划中rows的计算逻辑:从原理到实践 MySQL 执行计划中 rows 的计算逻辑:从原理到实践 在 MySQL 数据库的查询优化中 ...
2025-07-21在AI渗透率超85%的2025年,企业生存之战就是数据之战,CDA认证已成为决定企业存续的生死线!据麦肯锡全球研究院数据显示,AI驱 ...
2025-07-2035岁焦虑像一把高悬的利刃,裁员潮、晋升无望、技能过时……当职场中年危机与数字化浪潮正面交锋,你是否发现: 简历投了10 ...
2025-07-20CDA 数据分析师报考条件详解与准备指南 在数据驱动决策的时代浪潮下,CDA 数据分析师认证愈发受到瞩目,成为众多有志投身数 ...
2025-07-18刚入职场或是在职场正面临岗位替代、技能更新、人机协作等焦虑的打工人,想要找到一条破解职场焦虑和升职瓶颈的系统化学习提升 ...
2025-07-182025被称为“AI元年”,而AI,与数据密不可分。网易公司创始人丁磊在《AI思维:从数据中创造价值的炼金术 ...
2025-07-18CDA 数据分析师:数据时代的价值挖掘者 在大数据席卷全球的今天,数据已成为企业核心竞争力的重要组成部分。从海量数据中提取有 ...
2025-07-18