大数据时代的非结构化数据分析-文本分析-CDA数据分析师官网

大数据时代的非结构化数据分析-文本分析

2016-08-04

大数据时代的非结构化数据分析-文本分析

全球多达80%的大数据是非结构化的，如博客、微博、微信、设备日志、与客服代表的会话等都属于非结构化数据，人类的自然语言非常复杂，一句话可能包含多种因素：语气、语调、隐喻、反语等，简单的数据分析模型无法应对这些复杂多样的变化。

文本分析技术的发展方向：

1.智能化理解：确定一段文字是关于什么信息的，然后进行匪类和量化，再进一步分析。这有助于发掘客户的特点，并将其转换成结构化的数字输出到预测模型。

2.处理复杂文本：非结构化和半结构化的文本源，如XML文件、Excel电子表格或博客文章。他们内容庞杂、议题广泛，有必要整合两种或更多数据源在一起，进行统一分析，以获得深刻的见解。

3.简化管理：分析文本复杂繁琐，但输出的结果往往需要通俗易懂。对监管者来说，文本分析可以总动审计跟踪、定期检验、提交规格报告。

文本分析技术：

1.术语文档矩阵（A Term Document Matrix）：是一个需要进一步分析的结果集。例如，购买了产品的客户A的购买频率如何，与未购买产品客户B有何区别。我们需要对术语进行排序，以便基于它们的信号强度建模。这些术语的存在和频率可以用数字显示在建模数据集，并直接并入最佳预测模型。这种“语义评分卡”是传统评分卡辅以非结构化信息（按属性将数据进行分类，并分配权重）。可进行复杂的数据运算，以确定哪些属于信号最强、哪些特定术语应进行组合以从原文中识别出较大的概念。

2.命名实体识别（Named Entity Extraction, NEE）：基于自然语言处理，借鉴了计算机科学、人工智能和语言学等学科，可以确定哪些部分可能代表如人、地点、组织、职称、产品、货币金额、百分比、日期和事件等实体。NEE算法为每个标识的实体生成一个分数，该分数表明识别正确的概率。我们可以视情况设定一个阈值，来达到我们的目的。

3.文档主题生成模型（Latent Dirichlet Allocation, LDA）：主要用于监测客户行为变化，它可以发现数据的相似性以便进行分类和分组。LDA使用统计算法从非结构化数据抽取主题、概念和其他含义，它不理解语法或者人类语言，而只是寻找模式。任何数量、类型非结构化的、半结构化和结构化源数据都可以应用LDA监测模式来进行分析。

这种技术通常用于营销分析，针对提供存款、取款和购买行为的客户提取原型。如：银行可借助分析发现一些消费者虽然时常出差，但是忠诚度很高，这些客户往往会与客服代表沟通由于出差而错过还款的事由，并避免滞纳金。这样的分析可以帮助银行了解如何重视客户、降低客户流失率、提高客户忠诚度。再如：LDA分析还可以快速、方便地应用和更新消费者相关信息，可以判断消费者的最新行为是否与他们的历史行为一致，如果消费者有不同寻常的事情发生，或者行为与他们现有的文件不一致，系统可以发出警示。（根据消费行为的变化来优化推荐系统）。

4.文本情感分析。

大数据数据分析推荐系统客户忠诚度人工智能

数据分析咨询请扫描二维码

上一篇回归系列（一）| 怎样正确地理解线性回归

下一篇2020美国总统竞选大戏开锣，川普当选的奇迹会再发生吗？

大数据时代的非结构化数据分析-文本分析

考试指南

报考指南

热门栏目

最新资讯

政府、国央企、科研单位——中国航信-面向测试度量 ...

CDA内训丨深圳迈瑞生物医疗数据分析统计思维培训 ...

CDA数据分析师应合肥阳光新能源科技有限公司邀约开 ...

CDA走进海尔大学

苏州中行&CDA数据分析师开展数据分析师培训 ...

中国银行江苏分行-大数据应用培训

浙江农信数据建模及案例应用培训

华夏银行信用卡中心-机器学习培训

字节跳动-CDA案例实操及行业分析

长沙银行-Python集训营

数据分析在业务中的三大应用场景

AI提示词的使用方法详解及示例

CDA立足未来职场，拓展前沿视野

CDA 塑造未来职涯：构筑未来职业发展的数字基石 ...

随机森林（Random Forest）算法的优点和缺点都有哪 ...

方差分析的基本思想和原理是什么？

发现了一个好用到爆的数据分析利器

自从搞懂了回调函数，我对Python的理解上了一个台阶 ...

2020在学硕士达300万，失去学历光环的新生代何去何 ...

缓解就业焦虑的利器，证书真的越多越有保障吗？ ...