
美国进入“非结构化”数据分析新时代
目前,对国内大部分企业级客户而言,大数据时代已经真正到来了。
虽然,近年来“大数据”及“数据分析”概念被炒得很火,但国内,国内很多CIO/CTO们仍很“害怕数据”——一方面,企业充斥着无从分析的非结构化数据;另一方面,结构化数据分析方面,与非结构一样面临着方法不科学、周期冗长、性价比低、不能直接产生经济效益等典型的问题。国内大数据分析越来越陷入到一种不得要领、颇为鸡肋的僵局。
而反观大洋彼岸的美国,新技术正推动着美国数据分析产业进入到一个新的阶段——目前美国很多企业客户不仅开始分析非结构化数据,并通过引入“实时分析”、“数据驱动”(Data-driven)、“人机互动”等最新的数据分析理念,实现了企业数据分析与经济效益的有效联动。
每一次产业升级都会孕育出多个独角兽公司,而此次推动数据分析产业变革的正是以Taste Analytics为代表的从美国顶尖级数据可视化中心走出来的数据科学家们。
“这是一场不可思议的革命,你很难想象企业非结构化数据中蕴含的宝藏,我们在启用Taste平台的第一天就发现了一年以来客户邮件一直在抱怨的一个纰漏,从而及时挽回了品牌声誉。”美国某著名家电厂商CIO告诉我。
国内数据分析“七宗罪”
每一个做过调研的人,都会惊讶于中美两国在大数据分析理念和客户心态上的巨大差别。
“企业数据分析,中美在理念方面相差2-3年,而在实际执行层面或许有5年左右的差距。”美国数据分析科学家、Taste Analytics创始人及全美五大可视化研究中心的Derek Wang(汪晓宇)博士表示。
目前,国内的企业级客户在进行大数据分析时,仍以分析结构化数据为主,而对于内涵丰富的非结构化数据,市面上并没有有效的工具进行分析。
同时,在进行结构化数据分析时,仍采用了“招标+外包”的传统模式,即需要大数据分析服务的企业按照历史经验首先建立自己的数据分析KPI(关键绩效指标),然后将整个数据分析任务外包给第三方大数据公司,经过数月的时间后,大数据公司将数据分析的结果返还给甲方企业。
Derek Wang博士表示,这种数据分析的模式,会产生以下几方面的问题,这些问题也正是目前国内的CIO/CTO们颇为头痛的问题。
首先,错过了内涵丰富的非结构化数据。相比结构化数据,非结构化数据对企业同样重要,而目前,国内企业在进行非结构化数据分析方面仍在初始阶段。
第二,KPI非数据驱动生成,缺乏科学性。国内大数据KPI的制定常常以人为经验为准,而不是由数据驱动并且实时生成的,这就有可能造成KPI常年不变,并且缺乏科学性。
第三,数据分析过程冗长。国内企业在进行大数据分析时采用“招标-乙方返还数据分析结果”的方式,整个周期少则也需要1-2个月的时间,往往返还回结果时,企业内部的相关数据已经完全改变了。
第四,浪费了企业内部的分析师资源。采用外包的方式,其实完全浪费了企业内部的分析师资源,从经济效益上很不划算。
第五,数据安全性无法保障。外包的另一个问题就是数据的安全性问题,企业想确保数据以安全的方式交予第三方大数据公司,往往需要耗费额外的时间和经济成本。
第六,数据分析结果不能与企业经济效益直接挂钩。国内企业在进行数据分析时,不仅往往需要数月的时间,而且常常为了分析而分析,分析完之后并不能很好地将分析结果运用到企业经济效益的改善上。
第七,第三方大数据公司分析能力有限。企业看似将数据分析的重任交予了第三方公司,但第三方公司由于缺乏动态、数据驱动的数据分析工具,它其实也是在按照经验制定KPI和进行数据分析,这样分析出的结果难言科学有效。
对此,业内受访专家表示,目前国内企业陷入的数据分析困局,一部分是理念问题,而更多的是技术的制约以及工具的缺乏。“比如对于非结构化数据,其实每个企业都是非常渴望分析,并且希望实时分析的,但目前仍苦于在公开市场上没有好用的分析平台。”
新技术推动形成数据分析新理念
事实上,中国企业遇到的问题,美国企业客户也曾经经历过。美国某著名家电厂商相关受访人士告诉认为,自己也经历过对非结构化数据头大、不能实时科学地分析企业内部数据等问题。
但今年以来,随着美国在非结构化语义分析以及人机互动的图像可视化等技术领域取得关键性突破,尤其伴随着全美五大图像可视化中心之一的北卡罗来纳大学(UNC)夏洛特图像可视化中心的科学家们从学术界走到工业界,推出了实时动态的、结果易读的综合智能数据分析平台The Taste Signals Platform,对美国的企业级用户而言,不论是非结构化数据,还是实时数据分析——以往常见的数据分析难点都被一一攻克了。
“从学术研究成果到工业界,科技再次显示出了它强大的生产力,”美国某著名家电厂商相关受访人士表示,“我们以前不知道怎么处理像雪片一样涌来的客户邮件,有了Taste的新平台和技术,我们内部的分析师第一天就发现了,一年以来客户一直在邮件中抱怨我们一个产品实际的序列号位数与网站注册位数严重不匹配。这是一个我们常规思维中所预想不到的严重的产品问题,但在没有非结构化数据分析工具之前,我们完全无从发现这样的问题。”
不仅上述家电厂商,全美某著名银行IT部门的受访人士也表示,按照经验,他们的管理层曾经想花重金建立银行的某项支付功能,但通过对十几万条客户网络聊天信息进行非结构化数据的分析,他们发现仅有100多条客户谈及该支付功能,“数据驱动的分析让我们学会相信数据而不是跟随潮流,我们最终愉快地决定暂缓该功能的开发——非结构化数据分析让我们优化了我们的产品结构,更加有效的利用了我们的资金,实现了对于我们主营业务的提升”。
可以看到,目前在美国,很多主流的企业已经进入到了以非结构化数据分析以及数据驱动、实时分析、人机互动、结果易读等为特点的数据分析的新纪元。据了解,在The Taste Signals Platform等强大数据分析平台支持下,相比国内客户,目前美国客户已经形成了在数据分析方面的新理念。
首先,信任数据而不是经验。国内客户在制定数据分析KPI时,更多地依靠既往的经验,而美国客户则更多地相信通过机器学习的数据平台工具得出的数据挖掘的结果,即使这些结果有可能背离传统的经验(上述美国某银行就是一个很好的例子)。
其次,数据分析重要的不是工具本身,而是通过工具提升内部分析师的生产力。在美国客户眼中,数据分析更重要的在于充分调动起企业内部分析师的能动性,对他们而言,数据分析不是一个外包或者被动等结果的过程,而是一个利用更先进的数据分析平台工具提升内部人员生产力以及实时的人机互动的过程。
再次,非机构化数据与结构化数据同样重要。美国客户不仅希望看到“树木”,更希望看到“森林”,这就意味着他们不仅希望实时分析结构化数据,也希望分析非结构化的数据,并且对于每一个科学分析出的关键指标,他们都会分别建立舆情模型,再进行更加细化的数据分析。 这是一个循序渐进的过程。
第四,将数据分析与经济效益直接挂钩。美国客户更希望将数据分析的结果用于改善经济效益,比如美国某银行就通过数据分析节省了几千万的某支付功能的开发成本;而上述家电厂商也通过数据分析提升了用户满意度以及品牌形象。
年末重新定义国内“数据分析平台”
正如苹果定义了智能手机,将手机产业带入一个新的时代,每一次技术变革的背后往往都会孕育出优秀的甚至独角兽公司。而在此次美国的数据分析产业升级换代中,由美国夏洛特图像可视化中心的几个年轻的科学家成立的Taste Analytics就扮演了这样的角色。
在采访中发现,虽然其新型数据分析平台产品The Taste Signals Platform上市仅6个月,但已经引起了工业界的强烈震动,目前已有6家福布斯全球500强公司以及多家美国主流企业都采用了Taste的新型非结构化数据分析平台,“目前我们的销售额在以400%的速度增长”。
那么, 这究竟是怎样的一套新型智能数据分析平台呢?
The Taste Signals Platform是一套可用于每一个企业日常经营的实时的智能数据分析平台,其最独特的地方在于强大的非结构化数据的分析能力,目前其不仅可以分析传统的结构化数据,也可以分析包括中文在内的12种文字、语音等非结构化数据。
“我们可以分析各种非结构数据,其中既包括企业内部邮件、客户聊天记录、电话中心数据等一手的非机构化数据,也包括企业在电商上的二手数据,以及社交网络、新闻、博客等第三方数据。”Taste Analytics创始人Derek Wang博士表示。
同时,在对数据、文字以及语音进行分析时,The Taste Signals Platform也定义了“人机互动”、“实时分析”、“数据驱动”、“结果易读”等新型数据分析平台的典型特征。
“传统的数据分析更像是一个被动的等结果的过程,而新一代的数据分析更讲究企业内部分析师与机器的互动,我们将数据分析的过程分为三大步,第一步是数据驱动的语义分析,客户将成百上千万条数据导入系统中,系统会快速分析出机器学习到的各种结果信息和图表;第二步,客户通过我们简洁易读的图像可视化的界面,根据自身需求观察、解读和分析机器学习出来的结果;第三步是根据第二步的结果,客户可以利用Taste的系统建立自己的舆情分析模型,而从再次将该模型代入到分析平台中形成新的数据监控流。”Derek Wang博士如是说,“可以看到整个数据分析的过程形成了一个实时的正向的循环。”
目前,Taste Analytics的愿景是“用数据带动生产力”以及“将每个人都变为数据科学家”。据悉,今年年末到明年年初,Taste Analytics也将有计划进入中国市场,其目前还在进行市场调研以及产品本土化的准备工作。
“中国的广大企业级客户也很需要我们的技术,我们不仅会对产品进行本土化的改良,而且也会让公司‘入乡随俗’。未来我们将以全新的姿态进入中国市场。”
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
DSGE 模型中的 Et:理性预期算子的内涵、作用与应用解析 动态随机一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明确:TIF 中的地名有哪两种存在形式? 在开始提取前,需先判断 TIF 文件的类型 —— ...
2025-09-17CDA 数据分析师:解锁表结构数据特征价值的专业核心 表结构数据(以 “行 - 列” 规范存储的结构化数据,如数据库表、Excel 表、 ...
2025-09-17Excel 导入数据含缺失值?详解 dropna 函数的功能与实战应用 在用 Python(如 pandas 库)处理 Excel 数据时,“缺失值” 是高频 ...
2025-09-16深入解析卡方检验与 t 检验:差异、适用场景与实践应用 在数据分析与统计学领域,假设检验是验证研究假设、判断数据差异是否 “ ...
2025-09-16CDA 数据分析师:掌控表格结构数据全功能周期的专业操盘手 表格结构数据(以 “行 - 列” 存储的结构化数据,如 Excel 表、数据 ...
2025-09-16MySQL 执行计划中 rows 数量的准确性解析:原理、影响因素与优化 在 MySQL SQL 调优中,EXPLAIN执行计划是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 对象的 text 与 content:区别、场景与实践指南 在 Python 进行 HTTP 网络请求开发时(如使用requests ...
2025-09-15CDA 数据分析师:激活表格结构数据价值的核心操盘手 表格结构数据(如 Excel 表格、数据库表)是企业最基础、最核心的数据形态 ...
2025-09-15Python HTTP 请求工具对比:urllib.request 与 requests 的核心差异与选择指南 在 Python 处理 HTTP 请求(如接口调用、数据爬取 ...
2025-09-12解决 pd.read_csv 读取长浮点数据的科学计数法问题 为帮助 Python 数据从业者解决pd.read_csv读取长浮点数据时的科学计数法问题 ...
2025-09-12CDA 数据分析师:业务数据分析步骤的落地者与价值优化者 业务数据分析是企业解决日常运营问题、提升执行效率的核心手段,其价值 ...
2025-09-12用 SQL 验证业务逻辑:从规则拆解到数据把关的实战指南 在业务系统落地过程中,“业务逻辑” 是连接 “需求设计” 与 “用户体验 ...
2025-09-11塔吉特百货孕妇营销案例:数据驱动下的精准零售革命与启示 在零售行业 “流量红利见顶” 的当下,精准营销成为企业突围的核心方 ...
2025-09-11CDA 数据分析师与战略 / 业务数据分析:概念辨析与协同价值 在数据驱动决策的体系中,“战略数据分析”“业务数据分析” 是企业 ...
2025-09-11Excel 数据聚类分析:从操作实践到业务价值挖掘 在数据分析场景中,聚类分析作为 “无监督分组” 的核心工具,能从杂乱数据中挖 ...
2025-09-10统计模型的核心目的:从数据解读到决策支撑的价值导向 统计模型作为数据分析的核心工具,并非简单的 “公式堆砌”,而是围绕特定 ...
2025-09-10CDA 数据分析师:商业数据分析实践的落地者与价值创造者 商业数据分析的价值,最终要在 “实践” 中体现 —— 脱离业务场景的分 ...
2025-09-10机器学习解决实际问题的核心关键:从业务到落地的全流程解析 在人工智能技术落地的浪潮中,机器学习作为核心工具,已广泛应用于 ...
2025-09-09SPSS 编码状态区域中 Unicode 的功能与价值解析 在 SPSS(Statistical Product and Service Solutions,统计产品与服务解决方案 ...
2025-09-09