
2011年,西方有关""大数据""(big data)的理论像旋风一样席卷知识界,大数据的学术讨论接连不断。媒体火热的爆炒,各种危言耸听的结论,充满种种迷思,谷歌上竟有13多亿条这方面的报道和言论。我国IT业和新闻界也开展了探讨,并发表多篇文章,西方的""数据驱动新闻""(data-driven journalism)、""数据决定话语自由""(allowing the data to speak freely)的说法在国内流行起来。许多文章声称,媒体如不谙熟和掌控大数据洪流,将导致厄运,新闻报道的固有规律也将被颠覆。
一、""大数据时代""的虚构
最早提出""大数据时代""这一概念的是世界知名咨询公司麦肯锡(MGI)。麦肯锡在研究报告中指出,我们这个世界的数据量已经爆炸,分析大数据将成为竞争的基础,支撑新的生产力增长。数据逐渐成为生产要素,人们对海量数据技术的运用将预示新一波生产率增长和消费者盈余的提高。
大数据技术带来社会的上述变化,是否意味一个新时代的开始?大数据时代和信息时代有根本区别吗?
""时代""这一概念如果用于社会文明形态,是指在一定时空范围内由物质生产、政治制度或文化变迁而改变社会的整体面貌,并非可以随意贴上标签。虽然人们可以对某一阶段的流行思想或行为打上时代的标记,但那绝不是严谨的科学概念,而仅仅是一种习惯称呼。有史以来,人类社会出现过石器时代、红铜时代、青铜时代、铁器时代、蒸汽时代、电气时代、信息时代、蒙昧时代、启蒙时代、奴隶制时代、封建制时代、资本主义时代、社会主义时代的说法,都是指物质生产方式、政治制度或意识形态的特定状况。时代绝不等同于年代,也不是任何新玩意儿一出现、一普及,就打开了一扇新时代的大门。
大数据是信息技术的子集,仅仅是海量信息的统计分析方法,不具有物质生产和社会管理彻底变革的性质,因此不具有崭新的时代特征。作为信息经济时代的组成部分,大数据没有超出""以数据流通推动产品流通,信息技术和信息劳动占有整个经济巨大比重""的信息生产形态。它只是信息时代的特征之一,而不是一种新的经济形态或社会形态,因此大数据时代的概念,是十足的虚构。
国内某IT人士认为:""大数据正把我们变成新的物种。首先,大数据改变了我们的思维方式,让我们从因果关系的串联思维变成了相关关系的并联思维。第二,大数据改变了我们的生产方式,物质产品的生产退居次位,信息产品的加工将成为主要的生产活动。第三,大数据改变了我们的生活方式,我们的精神世界和物质世界都将构建在大数据之上。""④这个结论正是把大数据视为一种时代特征,迷思的味道浓厚。第一,在地球的温度、磁场、大气含氧量和紫外线不变的条件下,我们不可能变成新的物种,即使变也需要上百万年。第二,大数据不可能使物质产品的生产退居次位。我们只能依靠食品、水、房子、衣物、空气和交通工具等物质来生存,物质产品的生产永远处于首位,开发大数据技术或加工信息产品都是为了提高物质产品的生产效率和质量,永远不具有主导地位。大数据本身既不能充饥,也不能让人们安居。
迈尔恩伯格和库基尔提出更为荒谬的结论:""大数据时代最大的转变就是,放弃对因果关系的渴求,取而代之的是关注社会的各类关系。即只要知道'是什么',而不需要知道'为什么'。这就颠覆了千百年来人类的思维惯例,对人类的认知和与世界交流的方式提出了全新的挑战。""⑤如果大数据技术使人类只知道""是什么"",就不再有探索客观规律的要求--寻求""为什么"",那么大数据只能让人的认识停留在事物的表面现象,使人类走向无知,以致消弭科学研究,最终导致社会倒退。这样,大数据还有什么""时代""分量呢!?实际上,""大数据""分析平台不仅让人知道""是什么"",而且有时还让人知道""为什么"",否则就没有重大的工具性价值,对新闻媒体尤其如此。
二、""大数据""的两面性
大数据正在成为一股热潮,不仅是IT业的技术革新,也在不断冲击政治、商业、社会和其他科技诸多领域。对其模式的思考,以及如何应用它,已成为新一轮技术变革的最强音。但是,大数据技术也有两面性。
从积极方面说,大数据确实已成为数据王国的主线,是下一步信息研究的主要对象。大众媒体、社交媒体和各个经济、社会领域如何使用大数据,正确评估大数据的商业价值,建立大数据的新兴产业,培育大数据的专业人员,将极大推动社会变革和经济发展。哈佛大学社会学教授加里金说:""这是一场革命,庞大的数据资源使得各个领域开始了量化进程,无论学术界、商界还是政府,所有领域都将开始这种进程。""
虚拟世界有取之不尽的资源,数据可以转化为资产和财富。据预测,仅美国医疗服务业大数据技术的应用每年创造的价值就在3000亿美元左右,全球个人位置服务的最终价值将达到7000多亿美元。每天各种机构、个人和大量传媒发散的图片、文档、视频和言论杂乱无章、周而复始,人类早已无法掌控。而这些信息正是人类活动的真实记录,大量来自人类的心理层面和社会组织的内幕,通过大数据分析人类完全有可能认识复杂、隐秘的社会和自然现象,使科学研究进入快速发展时期,过去的不可知领域可能将被人类彻底解开谜底。
从消极方面看,大数据技术不是万能的,不能解决一切问题,它只是决策的一种量化手段。正确认识事物的是非和利害,遵循人文精神是更为重要的前提。缺少这个前提,大数据不仅毫无用处,而且能为谬论寻求支持的数据。
有的文章说:""大数据的时代其实是弘扬理性精神的时代美国在这方面就做得好很多,美国政府在各个领域都用数据分析,用数据决策,用数据创新。""⑦美国确实重视数据,研究社会问题都搞民意测验或其他实证调查已有八十多年的传统。但2008年金融危机已过去5年,它的各种经济决策没有使其走出困境;它的情报部门搜集的许多数据都是虚假的(例如伊拉克有大规模杀伤性武器、向国际原子能机构提供虚假情报等);尽管有大量智库提供佐证与数据,美国历届政府都有重大失误。美国盖洛普民意调查所预测美国大选,通常每次搜集、分析十多万个数据,但却多次预测错误。大数据本身不完全等于理性,决策基于数据分析而并非基于经验和直觉,是一种理性的表现,但更大的理性是人文法则。即重视人民的普遍要求,维护各民族的尊严和文化,尊重人的自由、平等和权利。不尊重其他民族的历史和风俗,奉行种族歧视,只知道本国利益而不考虑他国利益,让美国政府在内外事务中屡屡受挫,给一些国家的老百姓造成不可弥补的伤害(例如多次对外战争滥杀平民)。
遵循社会(国际)公德、人道主义、公正与正义、平等互利等友善原则,是分析数据的指导性准则。数据是有类别的,它真实与否,对全社会是否有利,哪种意见是绝大多数人拥护、赞成的,赞成的人是哪个阶层等等,数据本身还存在一定的模糊性。对社会问题提取大数据,主要了解绝大多数人的意见,依据人民是否满意做出结论,但大数据与人民的数量绝非完全等同。新闻传媒反映主流舆论,做出正确而精准的报道,仅仅依赖数据还远远不够。
互联网、大众传媒和社交媒体每天提供的巨量信息有大量冗余、虚假和有害的内容,其中侵犯他人隐私权、生存权和精神健康权的信息与图像大肆泛滥,""价值密度较低""。人类不但不能把大数据一股脑地当作宝库,而且要冷静审视数据的两面性,抛弃有害和无用的信息,使数据分析立于价值和法律层面,避免浪费专业人员的时间和精力。
机器储存和分析难以囊括几十亿兆数据,即使储存了这些数据,专业人员也无法全部调阅,删除和忘掉无价值的、不相关的信息是处理大数据的重要原则。正如迈尔恩伯格在《删除:数字时代遗忘的美德》一书中所说,数字技术和全球网络压倒一切,使我们忘记自己的自然能力,我们必须重新恢复忘记。人类应采取的措施是"" 数字化节制、保护信息隐私权、建设数字隐私权基础设施、调整人类的现有认知、打造良性的信息生态、完全语境化"",""大数据的取舍之道,就是把有意义的留下来,把无意义的去掉。只有理解了在大数据中需要的是什么,以及如何判断这种需要,才能举一反三地明白到底为什么要去掉那些不需要的。""⑧
三、媒体对""大数据""技术的应对
新闻媒体驾驭大数据是发现新闻的重要途径。今后的新闻素材主要来自互联网、物联网和社交媒体,新闻信息虽然源源不断,但良莠交错,云计算的""提纯""是选择新闻事实的主要手段。每天处理当日""信息嫩芽""(刚刚出土的新数据),使新闻素材保持最大的新鲜度,加重了媒体工作的紧张程度,稍有怠慢,更多的海量信息积压起来,媒体就陷入数据深渊而窒息。
新闻数据不断产生,呈现分散、蔓延状态,并夹杂在大量其他数据中,新闻媒体处理数据的鉴别力、精准率是加工信息的主要效能。""提纯""是认知客观世界的目标,提取新闻信息既要全面又要实时,经过一次次提纯和净化,才能达到新闻事实的精准度。大数据中的新闻素材不是核心资源,仅仅是新闻""毛坯"",或称""二手资源""。对于本地区新闻,记者的大量实地采访,获取第一手材料仍不可缺少,大型媒体仍需向异国、异地派出驻地记者。
在大数据统计中,数据频现的事件蕴藏着新闻价值,使记者可能发现大新闻。一个事件、一种现象是不是新闻,值不值得报道,不仅仅根据数据,更重要的是依据新闻价值理论做出判断。新闻价值理论是报道规律的总结,大数据排查不仅不能代替它,而且受其指导才能做出正确的认定。新闻事实的重要、新鲜、有趣或接近性能够派生出新闻价值,但不是新闻价值本身。新闻价值要素是指对受众有用、有益、有效,包括对受众生活的指导性、对提高受众思想道德的激励性和对陶冶受众性情的娱乐性和快慰感。这三种新闻价值成为新闻数据分析的""引擎"",而不是简单地以其出现的数据多少确定新闻价值。
让记者陈述鲜为人知的事件(故事)并寻找新的角度,需要完整的故事,大数据能够再现这种故事,特别是提供个性化的细节。数据库可以转化成任何形式的新闻写作,以可视化的形式对新闻创建清晰的描述。讲故事的元素既可用来说明事件的结果,也可发现记者先前判断的疏漏或误导。一个故事是可验证的,通过数据源、数据集、数据质量和数据格式的检查,发现事件(故事)可能包含的虚假部分,但很难确定哪个具体事实与细节是假的。只有实地核实事件,才能更真实地把握新闻的真实性,期盼数据提供完全的真实,包含太大的风险。
更为重要的是,大数据对新闻事件有各种判断和结论,是否都能提供思想、特别是正确的思想,无疑是否定的。不能武断地做出结论:大数据是真理的""万能判断器""。新闻媒体不仅需要对大数据提供的思想做出真理判断,还需要独立思考,遵循新闻真理性原则写出独家评论。德国学者赫尔曼麦恩曾说:""尊重真理,对公众作真实的报道,是新闻界的最高准则。""⑨新闻的真理性是以真实、客观为前提的,但不是真实、客观本身,它是在科学实践中被验证的;厮守人类正义和社会真相,反复权衡怎样报道才能对人类无害。对此,法国著名记者杰克凯赛尔强调:""真理问题是相当简单的,一个新闻记者必须说真话;歪曲事实或背叛真理的记者是不配做这一职业的。但是,对于真理闭口不言的人,是否应受到谴责呢?为了回答这些问题,我们不仅要求消息准确,我们还要求消息是否登载适宜的问题。""⑩ 对此,大数据只能提供部分参考,媒体的正确价值观才是首要的。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
Excel 数据聚类分析:从操作实践到业务价值挖掘 在数据分析场景中,聚类分析作为 “无监督分组” 的核心工具,能从杂乱数据中挖 ...
2025-09-10统计模型的核心目的:从数据解读到决策支撑的价值导向 统计模型作为数据分析的核心工具,并非简单的 “公式堆砌”,而是围绕特定 ...
2025-09-10CDA 数据分析师:商业数据分析实践的落地者与价值创造者 商业数据分析的价值,最终要在 “实践” 中体现 —— 脱离业务场景的分 ...
2025-09-10机器学习解决实际问题的核心关键:从业务到落地的全流程解析 在人工智能技术落地的浪潮中,机器学习作为核心工具,已广泛应用于 ...
2025-09-09SPSS 编码状态区域中 Unicode 的功能与价值解析 在 SPSS(Statistical Product and Service Solutions,统计产品与服务解决方案 ...
2025-09-09CDA 数据分析师:驾驭商业数据分析流程的核心力量 在商业决策从 “经验驱动” 向 “数据驱动” 转型的过程中,商业数据分析总体 ...
2025-09-09R 语言:数据科学与科研领域的核心工具及优势解析 一、引言 在数据驱动决策的时代,无论是科研人员验证实验假设(如前文中的 T ...
2025-09-08T 检验在假设检验中的应用与实践 一、引言 在科研数据分析、医学实验验证、经济指标对比等领域,常常需要判断 “样本间的差异是 ...
2025-09-08在商业竞争日益激烈的当下,“用数据说话” 已从企业的 “加分项” 变为 “生存必需”。然而,零散的数据分析无法持续为业务赋能 ...
2025-09-08随机森林算法的核心特点:原理、优势与应用解析 在机器学习领域,随机森林(Random Forest)作为集成学习(Ensemble Learning) ...
2025-09-05Excel 区域名定义:从基础到进阶的高效应用指南 在 Excel 数据处理中,频繁引用单元格区域(如A2:A100、B3:D20)不仅容易出错, ...
2025-09-05CDA 数据分析师:以六大分析方法构建数据驱动业务的核心能力 在数据驱动决策成为企业共识的当下,CDA(Certified Data Analyst) ...
2025-09-05SQL 日期截取:从基础方法到业务实战的全维度解析 在数据处理与业务分析中,日期数据是连接 “业务行为” 与 “时间维度” 的核 ...
2025-09-04在卷积神经网络(CNN)的发展历程中,解决 “梯度消失”“特征复用不足”“模型参数冗余” 一直是核心命题。2017 年提出的密集连 ...
2025-09-04CDA 数据分析师:驾驭数据范式,释放数据价值 在数字化转型浪潮席卷全球的当下,数据已成为企业核心生产要素。而 CDA(Certified ...
2025-09-04K-Means 聚类:无监督学习中数据分群的核心算法 在数据分析领域,当我们面对海量无标签数据(如用户行为记录、商品属性数据、图 ...
2025-09-03特征值、特征向量与主成分:数据降维背后的线性代数逻辑 在机器学习、数据分析与信号处理领域,“降维” 是破解高维数据复杂性的 ...
2025-09-03CDA 数据分析师与数据分析:解锁数据价值的关键 在数字经济高速发展的今天,数据已成为企业核心资产与社会发展的重要驱动力。无 ...
2025-09-03解析 loss.backward ():深度学习中梯度汇总与同步的自动触发核心 在深度学习模型训练流程中,loss.backward()是连接 “前向计算 ...
2025-09-02要解答 “画 K-S 图时横轴是等距还是等频” 的问题,需先明确 K-S 图的核心用途(检验样本分布与理论分布的一致性),再结合横轴 ...
2025-09-02