京公网安备 11010802034615号
经营许可证编号:京B2-20210330
我为什么反对大数据
现在很多人都热衷于把大数据放在嘴边,但你要问一下什么是大数据,大数据和你有什么关系?估计很少人能说出个一二三来。
究其原因,一是因为大家对新技术有着很深的原始渴求,至少在聊天时不会显得很“土鳖”;二是在工作和生活环境中真正能参与实践大数据的案例实在太少了。
一、什么是大数据
最早提出大数据时代到来的是麦肯锡,他说:
“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”
IBM 最早将大数据的特征归纳为4个“V”,即:
体量Volume,数据体量巨大。大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T)
多样Variety,数据类型繁多。比如,网络日志、视频、图片、地理位置信息等等。
价值Value,价值密度低,商业价值高。
快速Velocity,处理速度快。这一点也是和传统的数据挖掘技术有着本质的不同。
其实这些V并不能真正说清楚大数据的所有特征,下面这张图对大数据的一些相关特性做出了有效的说明。
维克托·迈尔-舍恩伯格在《大数据时代》一书中举了百般例证,都是为了说明一个道理
在大数据时代已经到来的时候要用大数据思维去发掘大数据的潜在价值
书中,作者提及最多的是Google如何利用人们的搜索记录挖掘数据二次利用价值,比如预测某地流感爆发的趋势;
Amazon如何利用用户的购买和浏览历史数据进行有针对性的书籍购买推荐,以此有效提升销售量;
Farecast如何利用过去十年所有的航线机票价格打折数据,来预测用户购买机票的时机是否合适。
书中提到大数据的核心是预测。有三个思路的转变:
不是随机样本,而是全量数据;
不是精确性,而是混杂型;
不是因果关系,而是相关关系。
二、现状分析
根据国家统计局2014年12月16日发布的《第三次全国经济普查主要数据公报》中显示:
全国共有从事第二产业和第三产业活动的法人单位1085.7万个,占全部企业法人单位95.6%。从业人员35602.3万人,平均每个单位32.8人。
这个数据说明了中国绝大多数的企业都是中小企业,在这种情况下,有多少企业有海量数据呢?
我们换个角度再看看以下数据,我们搜索一下国内几个典型客户的网站排名情况(查询网站是alexa)。
用友:
东软:
绿盟:
从中可以看出用友的PV最大,也就是一天75000个,一年的数据量也就是2300万,在加上别的数据,数据的量级也就是G级别的,还远未到T级,更别说P级了。
在这个量级上,一台好点的 PC Server 就可以处理完成大部分的需求,如果考虑到可靠性最多需要两台。
通过上面的分析,我们可以发现在中国,绝大多数的公司是没有太多数据的。
三、大数据的核心价值
《大数据时代》中提到的大数据的核心价值是预测,但我们提到大数据时,往往提到的都是大数据技术,比如Hadoop、Spark、Storm、Hbase、Hive等等,人们对此的讨论总是乐此不彼。
但现实的情况往往是数据只能验证现在,数据无法预见未来!
举个最近的例子:
大数据告诉我们股市暴跌后必然有反弹。于是6.25大跌后,大家都认为周五必然有一个反弹。结果周五就被庄家们狠狠的教育了一把。
6.28的双降(降息,降准),所有都说周一6.29会上涨,可周一中国的庄家让散户们明白,数据和经验只是你的一厢情愿,他不会给你一丝的喘息机会。
一切不以解决业务为出发点的技术都是耍流氓,计算机技术的发展是非常迅速的,往往一个技术可能没有多长时间就会被淘汰或者升级。
如果没有业务场景作为支持,存粹的学习大数据的技术是没有太大价值的,笔者崇尚的是学以致用。
因为大脑有个很明显的特征是健忘,如果用不到,学这些技术过一段时间就会忘记,还不如暂时不学,等后面需要用到的时候在学(原理基础知识等除外)。
四、数据真的值钱吗
很多时候数据并没有我们想象的这么值钱,尤其是互联网上很容易采集到的数据,比如:爬虫这个东西。
我一开始不是太懂,但是花点时间,基本上通了,无论是用Python自己写一个,还是直接用现成的各种软件,都是很快就可以部署并开始采集。
中国有大量的程序员,还有的稍微懂点编程的计算机爱好者,另外爬虫软件的出现可以让一个新手随便花点时间就可以学会采集。所以采集的门槛在降低。
另外,数据的可复制性导致其廉价,尤其是非结构性的数据,从现在互联网上大量的转载文章就可以看出知识的传播复制是非常廉价的。
数据的利用才是有价值的。比如:
一个老板,他每天看几十个零散数据放到他面前,但是却没有把行为数据和商业数据的关系告诉他,有什么用呢?
一个公司CEO,每天看到几十个数据,什么PV、PU、UV等等是没有意义的。
对于他们来说,只需要知道有问题吗?问题是什么?有新的发现吗?需要做什么?这就行了。
五、大数据的泡沫
伯克利的Jordan教授给出了答案,他是机器学习世界范围内最被尊敬的专家之一(下面的翻译来自知乎上的作者Quinn Sure)。
目前的大数据给出的结果可靠性太低,如果急于应用到实际中,就好比是土木工程都没学好就开始造桥,结果只能造出“豆腐渣工程”。
一大波“false positive”(假阳性)正在接近,因为数据增长的速度不够支撑我们把大数据到处乱用的欲望。作为一个科学,不够严谨(原文是“没有error bar”)。
不像造桥的土木工程,经过多年的积累,明确地能告诉我们什么样的情况可以造,什么不可以。而大数据没有。
目前在computer vision领域进展还很小,只能在非常有限的范围内识别,比如人脸识别这样非常具体的引用(虽然这个不是直接说大数据,但是可以看出,作者认为真正做到万物都sensor还很远,大数据的采集能力终究还是有限的)
neural network根本和人脑的neural network不是一回儿事,我们对大脑的理解根本没到可以引用到计算机科学的程度。
现在deep learning所采用的back propagation技巧,明显不是大脑的运作方式,network的结构都完全不同,什么对数据的模糊性处理已经达到人脑的境界云云,主要是媒体扯谈。
对他观点的总结:
有些媒体为了让公众容易理解,打了些比方,但是这种比方造成了太多误解,进而造成了太多hype(夸张的大肆宣传)。
大数据还是一个没有足够严谨程度的科学,可能有一定的概率做出一些有用的预测,但是使用不当,过分过早地依赖,则会造成灾难性的后果。
很多时候大家过早对一个技术爆发热情,寄希望它可以改变世界,如果短时间没有成果,有可能热情一下子转冷又觉得这是个错误,加速抽离给这个技术的资源。
显然Michael很担心现在公众对这个技术的热情,并不是基于对这个技术的理解,从而有可能会经历这样的态度转变。但是他认为这个领域是现实存在的,很多重要的应用,假以时日,是会创造价值的。但是现在很多媒体宣传,甚至投资行为,都是泡沫。
六、从小数据开始
那怎么做的呢?
从小数据开始,小数据就是个体化的数据,是我们每个个体或组织的数字化信息。
比如我天天都喝一两酒,突然有天喝完酒了胃疼,我就想了,这天和之前有何不同?原来,这天喝的酒是个新牌子,可能就是喝了这个新牌子的酒让我胃疼。
这就是我生活中的“小数据”,它不比大数据那样浩瀚繁杂,却对我自己至关重要。
现在很多企业面临的最大问题不是怎么用大数据,而是小数据都没用好的情况下怎么用大数据。
大数据应该是从小数据逐渐演变上去的,是一个正常的生态,而不是瞬间变化的。
首先,要了解自己的企业,自己所在的行业的核心是什么。有很多企业在竞争的过程中,最终不是被现在的竞争对手打败,而是被很多不是你的竞争对手所打败。
很简单的一个例子,大家都认为亚马逊是做电商的,但这是错的,它现在最主要的收入来自于云服务。
所以要找到企业的核心数据,这个是最关键的。只有在这个基础上,利用分析好这些数据,然后在做一些延伸。
其次,再找与内部相关的一些数据,去慢慢地成长它。有点像滚雪球,第一层是核心,第二层是外围相关的数据。第三层是外部机构的一些结构化数据。第四层是社会化的,以及各种现在所谓的非结构化的数据。
这几层要一层一层地找到它,而且要找到与自己相关的有价值的东西。这样你的数据才能利用起来。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数字化转型全面渗透的产业背景下,数据分析已成为互联网、金融、零售、制造等几乎所有行业的核心岗位能力。很多初学者对数据分 ...
2026-06-23在企业并购、股权定价、投融资评估、资产核算等资本市场核心场景中,市场法是应用最广泛、市场认可度最高的企业价值评估方法。传 ...
2026-06-23 许多数据分析师精通Excel函数和SQL查询,但当面对一张上万行的销售明细表,要快速回答“哪个地区销量最高”“哪款产品增长最 ...
2026-06-23【核心关键词】运营、证书、金融、客户、产品、软件、销售额、量化、科技、数据分析、金融行业、证券类软件、业务流程、金融机 ...
2026-06-22在企业方案选型、产品迭代评审、供应商筛选、运营效果复盘等决策场景中,单一指标的优劣判断往往无法支撑科学决策。一套转化效果 ...
2026-06-22 很多数据分析师掌握了Excel函数、会写SQL查询,但当被问到“数据从哪里来”“数据加工有哪些步骤”“如何使用分析工具连接数 ...
2026-06-22【核心关键词】软件、洞察力、大数据、产品、经验、硬件、流量、创新、决策、数据安全、网络安全、数据分析、决策制定、数据挖 ...
2026-06-18在方案选型、效果复盘、产品评估、供应商筛选等各类业务决策场景中,仅凭单一指标下结论往往会陷入 “以偏概全” 的误区。多维度 ...
2026-06-18 很多数据分析师精通Excel单元格操作,但当被问到“表结构数据的基本处理单位是什么”“字段和记录的本质区别”“为什么表结 ...
2026-06-18在数据分析、用户运营与业务增长的工作体系中,漏斗拆解是最基础也最高频的问题定位方法。很多业务场景下,我们只能看到最终的转 ...
2026-06-17在数据库开发、数据清洗与报表统计场景中,数值类型转换为日期是高频刚需操作。业务系统常以 Unix 时间戳、整型日期(如20240617 ...
2026-06-17 数据分析师八成以上的时间在和数据表格打交道,但许多人拿到Excel后习惯性地先算、先分析,结果回头发现漏了一列关键数据, ...
2026-06-17【核心关键词】数据库、电商、知识、产品、数据产品、监管业务、产品经理、业务系统、用户行为分析、用户分析、数据分析、电商 ...
2026-06-16在 Python 动态类型与面向对象的编程体系中,变量定义与类实例化是构建代码逻辑的两大核心基石。变量是数据存储、传递与运算的基 ...
2026-06-16 很多数据分析师每天与Excel打交道,但当被问到“表格结构数据和表结构数据有什么区别”“数据类型误判会引发哪些分析错误” ...
2026-06-16在 MySQL 查询性能优化体系中,索引是降低查询耗时、提升数据库吞吐的核心手段。其中联合索引与覆盖索引是实际开发中最高频的两 ...
2026-06-15在数据仓库建设与商业智能分析体系中,维度建模是应用最广泛的建模方法论,而事实表与维度表是维度建模的两大核心构件,共同构成 ...
2026-06-15 很多数据分析师能熟练计算指标,但当被问到“这家企业的核心业务目标是什么”“如何把模糊的战略目标拆解为可量化的指标”“ ...
2026-06-15在数据分析、业务监控、运营复盘等场景中,列值趋势计算是核心需求之一。无论是分析销售额的月度增长、用户活跃的变化趋势、库存 ...
2026-06-12在数字经济深度渗透的当下,消费者的购买行为已从过去的 “被动接受” 转变为 “主动决策”。流量红利消退、获客成本攀升、用户 ...
2026-06-12