大数据分析最佳实践案例分享
以前,人们对于数据的认识不够深,不懂得如何运用大数据技术,随着互联网飞速的发展,人们对于大量大数据分析有着深刻的认知,各行各业对数据分析师人才更加重视。
TDWI九月中旬发布的最佳实践报告正是调查大数据的分析状况。
今
年年初翻译了TDWI关于操作型
数据仓库的最佳实践报告,对他们这种最佳实践报告的套路已经比较熟悉。一般来说是:一下
定义;二看现状;三分长短;四谈趋势;最后还有个厂商介绍。这种报告多少还是有点商业利益的影子在里面,所以,后来觉得做此类翻译没什么意思。还是自己看
原文吧。
同样,这份报告一开始也是定义了big
data这个术语。顾名思义,大数据就是数据量很大吧!不仅仅是,报告总结了3V,翻译过来,可以说是“量类时”,volume、variety、
velocity。不光是有大数据量,TB级以上甚至PB级,还有讲究数据类型的多样性,不光是结构化数据,非结构化数据文本语音,皆出大数据。不光是量
大、类型多样,还有时效,已经不光是批量倒入,还有准实时、实时甚至是数据流了。
要知道,big data其实只是一个概念,是新环境下,新人群对旧事物的一种称呼。咱们BI人其实也就是扯大旗,拉虎皮。内涵,还是那些东西,
ETL、专题分析、可视化、
数据挖掘。只不过,这个词的出现意味着BI的理念稍稍普及了而已。
在调查中,很多企业其实或多或少在这个名头下做分析的事情,专题分析,这是我们通常的叫法,或者叫advanced
analytics。这是最常见的分析——给定一个业务问题(比如学生市场如何细分),用数据给出回答。不过要注意,其实专题分析(或advanced
analytics)并非一个严格的术语,不像OLAP那样,有维度啊,度量啊之类的概念限制,专题分析似乎只是遵循一种模式而已,问题-
数据分析-解
答。而至于如何分析,并没有要求,所以,只要符合这种模式的分析,不论是使用何种分析方法,几乎都可以说是专题分析,你无法去跟一个分析师说,你只是用了
excel的旋转
透视表做分析,就不能叫专题分析。
所以,大概也是因为这个术语的模糊性,导
致对分析师能力要求不够具体。从报告来看,可以看到目前大数据分析的最
大短板就在于人员的分析技能。这点在我们身边确实比比皆是。比如我们客户那儿,早先我们了解到每个地市公司都有自己的分析团队,每个团队大概也就是一两个
人吧。我们曾经问省公司,他们是否要进行日常的专题分析?回答说当然会做,而且做得快得很。后来去了解,确实也在做,大概一星期一个,主要就是接领导的需
要,分析一下这个,分析一下那个,主要工具用excel,透视一下,作图,贴到ppt里面完成。至于分析的深度,确实,在如此的时间内,对深度也不好意思
要求了吧,大体上是用数据呈现一下现状而已。那时我们才知道,虽然我们大家都在说专题分析,可对这个东西的要求并不完全一致,我们的分析团队对此有更严格
的要求。这种要求可能是“必须有业务发现”。
不过这种要求显然也难以衡量,什么叫业务发现?这是对结论的要求,可对过程的要求呢?问题以何种形式定义;分析逻辑如何编排;采用什么样的分析方法,配备什么形式什么周期的数据。这些可能都需要做要求。
当我们仍然使用专题分析、高级分析这类术语时,就必定仍然在模糊分析工作。未来,也许会有一天,会有一个新的术语,新的具备更清晰概念内涵的术语,来替代它们。
在四谈趋势环节,列举了很多跟大数据分析相关的技术,报告用一个二位矩阵来表示这些技术的应用度和潜力。横轴是应用潜力,纵轴是应用度(越大当然就是指现在实际用得多的)。基本分成了四个群体。
2、应用不少,有点潜力的:如
数据挖掘、数据库内分析、分析数据库、DWA、私云、分析沙盒;
3、应用不多,但很有潜力的:如MapReduce、
Hadoop、No-
SQL数据库、SaaS…
4、极具潜力应用也不错的:如专题分析(高级分析)、高级分析可视化、预测分析、实时仪表盘、
文本挖掘、内存内分析、可视化分析
看,基本上只有第3群对BI来说是新东西,嗯,其实也没多新。