京公网安备 11010802034615号
经营许可证编号:京B2-20210330
对于大数据存在多少偏见乃至误读呢
近几年,得益于资本追捧、企业造势、媒体推广以及公众往往跟风式参与,一些新概念或被引进、或被改造、或被提炼,其中代表性的有:大数据、互联网思维、“互联网+”、云计算、智慧城市、媒体融合、人工智能、IP、VR/AR等。其传播套路(流行持久度)大致为:今天你爆红,明日我当道,各领风骚真热闹。只是,在一阵阵浮躁、喧嚣与狂热的背后,这些新概念究竟有多少真正被正确理解了,而又有多少存在偏见乃至误读呢?

特别值得说说的,首推大数据。
对这个舶来的、随着2012年在有着“大数据商业应用第一人”之称的维克托·舍恩伯格那本全球级畅销书《大数据时代》隆重登场的新概念,先是在国内的互联网业界刮起一阵超级旋风,继而风靡了整个社会,由科技界的热门词变身为社会高频词,人人争说大数据,唯恐掉队落伍。说得更尖锐些,和绝大多数“新概念”一样,“大数据”已经成了许多闭门造车者竭尽全力宣扬的主题。这种现象与2005年盛极一时的Web2.0革命论如出一辙。那么,结果如何呢?在“中国互联网老兵”谢文看来,“一个概念,无论它可以抽象到多么高深的程度,其形成、演变、推广的过程往往却很实在、具体,充斥着不同社会力量的博弈。这个概念的对错与否、生命力的长短、对社会的影响往往不取决于概念本身,而在于它的社会价值”。因此他得出结论,“关于大数据,你知道的都不对!”
《大数据经济》是谢文的第二本书,距离上一部《为什么中国没出Facebook》已过去了五年。很难想象,自上世纪90年代中期留美归国后,就先后在中公网及其所属联众游戏网站、互联网实验室等知名企业担任CEO、董事等职务,曾担任和讯网CEO和雅虎中国总裁等职的业界大咖,频繁在各大纸媒撰文发表业界观察和产业心得的人,在出书这个举动上却如此“惜字如金”。但或许也正是如此,使阅读谢文作品成了一种智性训练和与智者的对话。在谢文冷静、平和的文字背后,体现了他作为中国互联网发展数朝元老的老练沉稳,这种面对汹涌浪潮波澜不惊的定力,除了来自专业理性的思考,便是长年累月、一以贯之的行业沉淀。
按照架构,《大数据经济》旨在向公众澄清有关大数据的一些谬误,正本清源、回归真相。而主体内容则收录了谢文从2012年上半年起至今陆陆续续写的一系列关于大数据现象的专栏文章。虽然每篇议题各有侧重、篇幅也长短不一,但核心绕不开以下几个论点:第一,时下,对大数据的概念界定实际上仍然模糊不清、模棱两可;第二,当前大数据实践都还属于摸着石头过河的阶段,这符合产业发展规律,大体来看,第一波创新尝试集中在网络业、制造业和公共服务业以及三者之间的融合互动上;第三,大数据是一种世界观、历史观、价值观、方法论;第四,数据服务将是未来,而数据共享与公开将是大数据蓝海的历史使命。当然,他更不否认接下来的第五点:大数据时代对社会现有结构、体制、文化和生活方式的冲击与变革远大于计算机时代和互联网时代。“现在正是大数据带来的大变革的前夜,面对这场势将席卷全球的社会大变革,主动比被动好,早动比晚动好,不动不是一个选择。”
仅就这些观点而论,谢文其实并不孤单,就拿国内来说吧,至少像《决战大数据》的作者车品觉、《大数据》和《数据之巅》的作者涂子沛等几位,都与他“英雄所见略同”。
此外,我们也看到了谢文的忧虑。在书中他忧心忡忡地指出,大数据是整个Web2.0革命的重要组成部分,世界网络业的领军公司,例如Google、Facebook、苹果和亚马逊已占据了先发的位置。我国网络业中哪家公司能急起直追,谁就是先行者,否则,就只能扮演受害者的角色了。至于未来的战略方向,谢文建议有识之士重视数据服务业,数据服务业和现有的相关产业的根本区别在于其商业模式是数据驱动型,是对大数据的深度分析加工,是对大数据的多重利用和深度利用,是对现有简单直接商业模式的增值服务。《大数据经济》提到,包括苹果公司和谷歌在内的世界巨头,都在不计成本地全方位增加生产和获取大数据,就是为了在走向数据服务业的过程中赢得先发优势,为未来的领先地位在下一盘很大的棋。
谢文为此毫不客气地批评国内公司一拥而上生产智能手机的现象:“如果自身没有成熟配套的操作系统、开放平台、云计算后台和数据分析加工平台,单兵突进只做手机,也许在某个时段能赚点钱,但从长远看是没有前途的。那些在手机首页集成点自己的服务,高呼抢占网络入口口号的伎俩,在滚滚而来的大数据洪流面前显得那么苍白无力。何不舍弃鸡肋,重新定位,发挥优势,争取不在大数据时代掉队呢?”商业、资本固然有“趋利性”的一面,也就是什么赚钱做什么,而谢文的洞见在于,“趋利性”与“趋势性”并不矛盾,而后者是谋定而后动,去做一些更长远、更深远的产业布局。很可惜,并没有多少人能意识得到这一层,而这恰恰也回应了他当年的“谢氏之问”——为什么中国没有Facebook?
客观地讲,由于《大数据经济》是谢文之前媒体专栏文章的结集,因而在时效性上多少有点欠缺,即便国务院印发的《促进大数据发展行动纲要》也才大半年前的事,但互联网风向转变之快,已不是三五年为一个周期的“后浪推前浪”了。另外,本书还收录了其他非“大数据”主题的文章,议题从移动互联网创新到“互联网+”再到宽带战略、公司研究等等,内容难免显得有些繁杂。不过,鉴于谢文十几年如一日跟踪中国互联网产业的发展步态,锲而不舍地发些看似不合时宜的声音,他的作品仍被笔者列在必读范畴之内。至于媒体把他尊称为“中国的凯文·凯利”,则未免有些不着边际。谢文从来不输出技术哲学,也不信奉先验主义,他只是在持续不断地讲述常识。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数字化时代,每一位用户与产品的交互都会留下可追溯的行为轨迹——电商用户的浏览、加购、下单,APP用户的注册、登录、功能使 ...
2026-03-31在日常数据统计、市场调研、学术分析等场景中,我们常常需要判断两个分类变量之间是否存在关联(如性别与消费偏好、产品类型与满 ...
2026-03-31在CDA(Certified Data Analyst)数据分析师的职场实战与认证考核中,“可解释性建模”是核心需求之一——企业决策中,不仅需要 ...
2026-03-31多层感知机(MLP,Multilayer Perceptron)作为深度学习中最基础、最经典的神经网络模型,其结构设计直接决定了模型的拟合能力、 ...
2026-03-30在TensorFlow深度学习实战中,数据集的加载与预处理是基础且关键的第一步。手动下载、解压、解析数据集不仅耗时费力,还容易出现 ...
2026-03-30在CDA(Certified Data Analyst)数据分析师的日常工作中,“无监督分组、挖掘数据内在聚类规律”是高频核心需求——电商场景中 ...
2026-03-30机器学习的本质,是让模型通过对数据的学习,自主挖掘规律、实现预测与决策,而这一过程的核心驱动力,并非单一参数的独立作用, ...
2026-03-27在SQL Server数据库操作中,日期时间处理是高频核心需求——无论是报表统计中的日期格式化、数据筛选时的日期类型匹配,还是业务 ...
2026-03-27在CDA(Certified Data Analyst)数据分析师的能力体系与职场实操中,高维数据处理是高频且核心的痛点——随着业务场景的复杂化 ...
2026-03-27在机器学习建模与数据分析实战中,特征维度爆炸、冗余信息干扰、模型泛化能力差是高频痛点。面对用户画像、企业经营、医疗检测、 ...
2026-03-26在这个数据无处不在的时代,数据分析能力已不再是数据从业者的专属技能,而是成为了职场人、管理者、创业者乃至个人发展的核心竞 ...
2026-03-26在CDA(Certified Data Analyst)数据分析师的能力体系中,线性回归是连接描述性统计与预测性分析的关键桥梁,也是CDA二级认证的 ...
2026-03-26在数据分析、市场研究、用户画像构建、学术研究等场景中,我们常常会遇到多维度、多指标的数据难题:比如调研用户消费行为时,收 ...
2026-03-25在流量红利见顶、获客成本持续攀升的当下,营销正从“广撒网”的经验主义,转向“精耕细作”的数据驱动主义。数据不再是营销的辅 ...
2026-03-25在CDA(Certified Data Analyst)数据分析师的全流程工作中,无论是前期的数据探索、影响因素排查,还是中期的特征筛选、模型搭 ...
2026-03-25在当下数据驱动决策的职场环境中,A/B测试早已成为互联网产品、运营、营销乃至产品迭代优化的核心手段,小到一个按钮的颜色、文 ...
2026-03-24在统计学数据分析中,尤其是分类数据的分析场景里,卡方检验和显著性检验是两个高频出现的概念,很多初学者甚至有一定统计基础的 ...
2026-03-24在CDA(Certified Data Analyst)数据分析师的日常业务分析与统计建模工作中,多组数据差异对比是高频且核心的分析场景。比如验 ...
2026-03-24日常用Excel做数据管理、台账维护、报表整理时,添加备注列是高频操作——用来标注异常、说明业务背景、记录处理进度、补充关键 ...
2026-03-23作为业内主流的自助式数据可视化工具,Tableau凭借拖拽式操作、强大的数据联动能力、灵活的仪表板搭建,成为数据分析师、业务人 ...
2026-03-23