京公网安备 11010802034615号
经营许可证编号:京B2-20210330
重视非结构化数据分析 走出两大“经典”误区
虽然基本上国内大部分公司,言必提“大数据”,但是对于大部分CIO、CTO们来说,对数据的分析仍然停留在过去的阶段:对于非结构化数据分析的成熟度还远远落后于结构化数据。
但是现在移动端所带来的爆发式增长给大数据从业者带来了非常大的挑战,这些数据有很多是非结构化数据,充斥了人们交流的空间,相应的,对非结构化数据的分析也变得越来越重要——对非结构化数据进行分析、提取出有价值的东西,成为CIO、CTO们最关注的问题。
但是目前,很多人仍有非结构化数据分析等同于舆情分析的粗暴认知。
非结构化数据分析就是舆情分析?错!
“非结构化数据分析就是舆情分析,这个技术中国现在已经发展的很快了。”类似这样的言论在CIO、CTO们的交流中屡见不鲜。
但是美国数据分析科学家、美国非结构化数据分析鼻祖企业Taste Analytics创始人及全美五大可视化研究中心的Derek Wang(汪晓宇)博士告诉记者,事实上这是完全不对的,舆情分析其实仅是非结构化数据分析的一部分。
舆情分析,是人们通过先前经验制定监控的KPI以及监控模型,而后通过模型预知和监控未来风险的过程。
但是真正的非结构化数据分析,是一个由数据驱动(Data-driven)的语义分析加舆情分析的整体过程,这比单纯的舆情分析更具科学性,内涵更丰富。
首先,舆情分析具有滞后性,而非结构化数据分析具有前瞻性。
舆情分析是一个先建词库、后验证的过程。举例来说,比如公司要监控某次危机,舆情分析就需要先将与这个危机有关的词汇建立到学习范本里,一旦随后的搜索监控结果与范本里的词汇有所匹配,那么就说明已经出现了这个趋势。
可以看到,这是一个后验的过程,但是,非结构化数据分析则是机器从未知的数据里实时提取出重要的关键信息,作为未来舆情建模的基础性标准,具有明显的前瞻性。
“语义分析其实是舆情分析的对立面。舆情是你知道这件事再去监测,而非结构化数据分析则是不知道的时候去挖掘、建立监测的模型。一旦数据容量呈爆炸式增长或流行词汇更新换代,非结构化数据分析可以实时更新学习范本,重新定义监控模型。”Derek Wang博士说。
第二,舆情分析会依赖于人们的经验来建立模型,而非结构化数据则是数据驱动,更为客观科学。
“虽然舆情监控也有机器学习的技术在里面,但是最大不同在于,它是一个后验的过程。”Derek Wang博士说,“这要求人们先要有这个经验去建模和监测。”
而语义分析是非结构化数据分析里的一个重要部分,相对于舆情分析需要先建立相关的词汇库,语义分析则是一个用机器学习的方法从数据源里提取出关键信息的过程。由于它是通过统计学和深度学习的方法产生,所以能保证科学性,更客观自然地把文档里的关键信息提取出来。
第三,人机互动可以补足技术短柄。
真正的非结构化数据分析,比如Taste Analytics研发出来的技术,不仅包括舆情分析和语义分析,更为关键的是,还加上了人机互动的创新机制,涵盖了整个非结构化数据分析全过程——从语义分析到人机互动,再到舆情分析,三者缺一不可。
据记者了解,目前美国工业界已经充分认可了这种三位一体的非结构化分析理念:在语义分析的结果基础上,企业内部分析师对机器学习的结果进行学习和KPI筛选,而后再建立舆情模型,进行长时间监控。
这样合理地整合“舆情”加“语义”两大技术系统,再把企业内部分析师的主观能动性有机结合起来,才能实现客观的数据分析。
美国一家知名银行的受访人士也表示,此前他们委托第三方建立的舆情体系,其实最终效果并不让人满意。“按照人为经验建立的舆情体系下,监控和分析的结果都很片面,”对方称,“所以我们最终还是转向了Taste Analytics结合舆情、语义和人机互动的更加客观高效的非结构化数据分析服务。”
非结构化数据分析就是情感分析?错!
不仅国内,即使在美国,非结构化数据分析也属于非常前沿的技术,企业简单粗暴地把非结构化数据分析等同于舆情分析的也不在少数。他们甚至还走入了另外一个误区:把非结构化数据分析和原来美国流行的情感分析也混为一谈。
美国很多企业都和客户关系很紧密,非常注重客户的反馈。而情感分析就是这样应运而生的:它让机器试图理解人说的这段话是正面、褒义的,还是负面、贬义的。
很多美国企业在过去3、4年里,都把所谓的非机构化数据分析,当成情感分析。但是,即使是业界最高水平,也仅仅能够把用户情感度划分成11个层级,来让机器了解人们对这个产品是喜欢、还是讨厌,却无法真正让企业理解用户的深层次需求。
Derek Wang博士介绍说,情感分析的局限性非常大,最多只能作为企业数据分析的一个参考指标,而不能保证100%正确。
比如,嘲讽的语气就是机器无法识别的。美国就曾有公司过于信赖情感分析模型,完全错把顾客的嘲讽当成夸赞,搞反了产品研究的方向。
另外,情感分析缺乏对客户想法的深入挖掘。
机器可以尝试对喜恶赋值,但是这一数值没有办法为企业解释上下文是什么,也就是说永远搞不清客户为什么而喜欢/讨厌它,这样一来情感分析的参考价值就大大缩水。
但是,非结构化数据分析却可以实现“溢价分析”,也就是说,它不仅可以告诉企业客户的情感度多少,还能指出客户在哪里有情感不满。这样就为企业提供了科学的决策辅助工具,有助于企业在今后有效地提升用户满意度。
“我们的语义分析可以把很多种自然语言分析模块有机结合在一起,把自然语言学习、分词、聚类、情感分析都立体整合,把整体化的语义分析带给市场。” Derek Wang博士介绍说,“这其实也是非结构化数据分析和传统情感分析最大的不同。”
海量的客户需求,巨大的市场空白
据IBM商业价值研究院和牛津大学赛德商学院共同发布的《分析:大数据在现实世界中的应用》显示,全球仅四分之一的受访者表示自己具备了分析高度非结构化数据的能力,而对大部分组织而言,掌握先进的非结构化数据分析能力仍是从“大数据”中获得价值的重大挑战。
事实上,任何需要和客户直接打交道的企业,都应该从现在开始,重视非结构化数据分析的重要性。
为什么呢?至少有两点显而易见的理由。
首先,非结构化数据分析可以排查出致命纰漏,保住了企业的“底线”。
企业服务里可能存在很多难以察觉但是致命的纰漏,用别的方法是很难排查的。比如,美国某著名家电厂商CIO就告诉记者,他们在启用The Taste Signals Platform的第一天,就发现了一年以来客户邮件一直在抱怨的一个小纰漏,从而及时挽回了品牌声誉。
其次,非结构化数据分析提升了企业客户服务的效率。
目前,大多数企业已经建立了多个客户沟通渠道,平均下来有6-7种之多。企业每天都要安排大量的客服人员和客户沟通,但是却“治标不治本”。
企业对客户投诉等这些典型的非结构化数据的分析很少,更多的是疲于解决问题,而不是找到投诉背后的主要原因,而从根本上解决它。
“很多时候,客户一抱怨,客服就是去安抚,甚至安排退货,很少有企业来看说每月为什么有退货,而只是在被动解决问题。”Derek Wang博士表示,“而非结构化数据分析,对客户的抱怨不仅知其然,更将其作为分析结果呈现给企业,企业可以做出改进,从而从根本上解决大批客户的抱怨,大大提升了客户满意度。”
“事实上,不仅如此,以美国企业的经验来看,数据驱动的科学的非机构化数据分析,可以帮助企业提升内部分析师的效率,并且实现明显的商业价值。”Derek Wang博士表示。
目前,中美企业都意识到了非结构化数据分析的重要性,但是苦于市场上几乎没有成熟的解决方案。
Derek Wang博士也表示,排除BAT之外,能够在内部建立非结构化数据分析团队的公司,几乎可以称得上凤毛麟角,很多都是交给第三方服务公司。但问题在于,很少有第三方公司可以完全独立承担非结构化数据分析服务,而且技术也远远不能满足现在企业的需求。
另外,即使有一些非结构化数据分析的工具,由于它们都不是给最终用户设计的,所以普遍都很难用,需要长时间对员工下进行培训,这样产生的经济价值很小。
“CIO们几乎都没有一个工具,可以来调动员工分析数据的热情。而让第三方给他们提供的话,效果也不好。”Derek Wang博士说,“很多时候很多大数据分析工具看起来卖相很好,但是很难被大范围使用,这是企业的损失。”
美国率先实现非结构化数据分析
尽管企业对非结构化数据分析有很大的需求,但是这个市场几乎是一片空白,而由美国夏洛特图像可视化中心的几个年轻的科学家成立的Taste Analytics,看到了这个领域的巨大潜力,决定用自己的研究成果来颠覆传统的数据分析服务。
目前已有6家福布斯全球500强公司以及多家美国主流企业都采用了Taste的新型非结构化数据分析平台The Taste Signals Platform,而且他们的销售额在以400%的速度增长。
“Taste Analytics的优势非常明显,他们可以对数据、文字以及语音进行实时分析,结合了舆情分析、语义分析、人机互动三重机制,再加上可视化分析结果和简单易用的使用界面,他们不仅能帮助企业了解新的市场增长点、做出正确的决策,而且可以充分调动数据分析师们的积极性。”业内专家表示。
另外,Taste Analytics的服务适用于各种非结构化数据分析场景,只要有聊天记录、对话记录和邮件记录,他们的服务就可以和数据源直接对接,非常易用而且安全。
“我们也给中国企业提供了非常本地化的服务。从安全角度来说,如果是企业内部的私有数据,我们可以把平台放到企业防火墙内或者内部云里;如果是外部数据,我们的爬虫会自动抓取这些数据,”Derek Wang博士说,“我们一直希望的就是,让企业用最小的付出,得到最好的结果。”
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在神经网络模型搭建中,“最后一层是否添加激活函数”是新手常困惑的关键问题——有人照搬中间层的ReLU激活,导致回归任务输出异 ...
2025-12-05在机器学习落地过程中,“模型准确率高但不可解释”“面对数据噪声就失效”是两大核心痛点——金融风控模型若无法解释决策依据, ...
2025-12-05在CDA(Certified Data Analyst)数据分析师的能力模型中,“指标计算”是基础技能,而“指标体系搭建”则是区分新手与资深分析 ...
2025-12-05在回归分析的结果解读中,R方(决定系数)是衡量模型拟合效果的核心指标——它代表因变量的变异中能被自变量解释的比例,取值通 ...
2025-12-04在城市规划、物流配送、文旅分析等场景中,经纬度热力图是解读空间数据的核心工具——它能将零散的GPS坐标(如外卖订单地址、景 ...
2025-12-04在CDA(Certified Data Analyst)数据分析师的指标体系中,“通用指标”与“场景指标”并非相互割裂的两个部分,而是支撑业务分 ...
2025-12-04每到“双十一”,电商平台的销售额会迎来爆发式增长;每逢冬季,北方的天然气消耗量会显著上升;每月的10号左右,工资发放会带动 ...
2025-12-03随着数字化转型的深入,企业面临的数据量呈指数级增长——电商的用户行为日志、物联网的传感器数据、社交平台的图文视频等,这些 ...
2025-12-03在CDA(Certified Data Analyst)数据分析师的工作体系中,“指标”是贯穿始终的核心载体——从“销售额环比增长15%”的业务结论 ...
2025-12-03在神经网络训练中,损失函数的数值变化常被视为模型训练效果的“核心仪表盘”——初学者盯着屏幕上不断下降的损失值满心欢喜,却 ...
2025-12-02在CDA(Certified Data Analyst)数据分析师的日常工作中,“用部分数据推断整体情况”是高频需求——从10万条订单样本中判断全 ...
2025-12-02在数据预处理的纲量统一环节,标准化是消除量纲影响的核心手段——它将不同量级的特征(如“用户年龄”“消费金额”)转化为同一 ...
2025-12-02在数据驱动决策成为企业核心竞争力的今天,A/B测试已从“可选优化工具”升级为“必选验证体系”。它通过控制变量法构建“平行实 ...
2025-12-01在时间序列预测任务中,LSTM(长短期记忆网络)凭借对时序依赖关系的捕捉能力成为主流模型。但很多开发者在实操中会遇到困惑:用 ...
2025-12-01引言:数据时代的“透视镜”与“掘金者” 在数字经济浪潮下,数据已成为企业决策的核心资产,而CDA数据分析师正是挖掘数据价值的 ...
2025-12-01数据分析师的日常,常始于一堆“毫无章法”的数据点:电商后台导出的零散订单记录、APP埋点收集的无序用户行为日志、传感器实时 ...
2025-11-28在MySQL数据库运维中,“query end”是查询执行生命周期的收尾阶段,理论上耗时极短——主要完成结果集封装、资源释放、事务状态 ...
2025-11-28在CDA(Certified Data Analyst)数据分析师的工具包中,透视分析方法是处理表结构数据的“瑞士军刀”——无需复杂代码,仅通过 ...
2025-11-28在统计分析中,数据的分布形态是决定“用什么方法分析、信什么结果”的底层逻辑——它如同数据的“性格”,直接影响着描述统计的 ...
2025-11-27在电商订单查询、用户信息导出等业务场景中,技术人员常面临一个选择:是一次性查询500条数据,还是分5次每次查询100条?这个问 ...
2025-11-27