
理解大数据时代的数字鸿沟
大数据是近几年来炙手可热的话题,大数据的优势以及大数据所带来的新思潮形成研究热潮。从随机抽样到全体样本,从要求精确到应对混杂,从追求因果到发现关联,大数据时代改变着我们的信息环境与信息处理思维模式。但是,并非所有的人都能同时走入大数据时代,如同媒介技术的每一次创新与扩散一样,敏感的企业和组织是大数据的先行者和实践者,也是最早的大数据受益者;而普通的个体则在面对大数据时呈现差异,有的在时间上跟进迟缓,有的在数据分析能力上存在欠缺,有的不知道如何寻找开放数据,有的在数据噪音前不知所措。传统互联网时代的数字鸿沟尚未完全填平,而在大数据时代新的数字鸿沟又在形成并不断影响与改变着人们的政治经济地位。
讨论大数据时代的数字鸿沟,需要明确区分“数字差异”与“数字鸿沟”.从词源上看,两者意义接近,都是由“Digital Divide”翻译而来。但从传播效果或情感色彩上看,数字鸿沟比数字差异更能引起人们的警示。在大数据时代,人们创造数据并被数据所包围,囿于人的视野及精力,人们在面向数据并做出选择时必然会出现差异。比如,互联网提供的个性化的搜索引擎,个性化藏夹等都会导致信息浏览的个人化,大数据时代的数字差异不可避免。数字鸿沟比数字差异更能引起人们的警惕,数字鸿沟更强调在认识和机会上的差异。数字差异是知道有机会而不为,数字鸿沟则是想为而没有能力或机会。同在大数据背景之下,数字鸿沟可能会在拥有数据、分析数据和数据思维三个层面存在数字鸿沟。
三个不同的分析维度
(一)拥有数据的数字鸿沟
大数据时代,“全新”“、革命”“、颠覆性”等术语频繁出现,但“大数据”这一标签下所指涉的问题却由来已久。伴随着互联网的勃兴,数据的指数增长、信息超载和数据处理问题等一直是人们不得不面对的问题。在大数据时代,数据的掘取、存储、处理与应用方面的技术有了快速的发展,但是在谁拥有数据这个造成数字鸿沟最基本的问题上,当下关于大数据的讨论并未给出让人满意的答案。
1.数据开放
对于企业和政府来讲,大数据是一笔宝贵的财富,“对大数据的掌握可以转化为经济价值的来源”也可以从更为准确的角度了解社会,并进行管理。因此,企业和政府需要从普通公众那里搜集数据,数据的传播是一种自下而上的过程,最先拥有和掌控大数据的也是来自企业和政府的“数字先锋”.但是,消弭数字鸿沟恰恰需要另一种形式的数据流动,即开放数据---让数据从企业和政府所有而变成被公众所共享,这是一个自上而下的过程。在现实生活中,这种自上而下的信息流动处处面临着阻力:一方面企业把数据当做核心竞争力或者核心机密,并且花费了大量的人力、物力、财力去做数据分析,因此很难实现数据的共享;另一方面政府的数据公开步伐还比较缓慢,公众获得有价值的信息依然有难度。
数据开放所形成的数字差异需要开放数据来解决。哪些数据能够开放,以何种形式向公众开放,具体的实施者是谁,谁又能为数据开放过程中的“搭便车”行为买单都是需要思考的问题。大数据既可以产生商业价值,同时又兼具公共性的特质,在此过程中,和公众利益密切相关的数据需要开放,我国早在 2007 年 1 月 17 日就通过了《中华人民共和国信息公开条例》,明确规定原则、范围、方式、程序和监督保障制度。在大数据时代,政府开放数据的力度应该进一步加大,同时对公众进行获取数据的素养教育,实现数据的民有和民享。作为一种公共资源,数据分配的公平性和财富分配的公平性一样,都会对社会结构产生非常大的影响,政府和企业可以依靠数据存储与分析技术的发展做“数据银行”业务,让每个公民都有机会在“数据银行”存储和提取自己想要的数据。国内学者涂子沛在《大数据》一书中,把开放数据放在数据民主的角度去思考,指出开放数据运动会推动“开放政治、开放政府、开放媒体、开放城市等等一系列的运动和口号”.这对消除数据所有权所形成的数字鸿沟,建设一个数据公平的美丽新世界提供了一条可行之路。
2.数据搜集
大数据时代的基础在于海量数据,究竟多大才是大数据呢?“麦肯锡全球研究所”的最新报告对大数据下了一个定义:“大数据是指大小超出了传统数据库软件工具的抓取、存储、管理和分析能力的数据群”而且,大数据的标准随着数据的指数增长也在不断发生变化。今天,我们在谈论大数据时往往以
pb
为单位,海量数据提供了更为详细的信息,但是也存在一些隐忧,即数据的价值密度太小,因而搜集数据以及在海量数据中寻找有价值信息的成本太高。舍恩伯格在接受《中国经济周刊》记者谢玮专访时说:“在许多方面,我们仍然生活在一个‘小数据’时代,在这个时代收集数据非常耗时、昂贵和困难。”大数据时代的数据搜集是一项庞大的工程,而且,大数据还远远未达到普通人能够支付得起的阶段。
搜集数据的数字鸿沟在大数据时代似乎没有减少,反而随着大数据处理技术的发展而在逐步扩大。对于媒体和企业来讲,搜集数据和处理数据都并非易事,着名的《哈佛商业评论》杂志对全球财富1000强的企业应用大数据的情况做了一项科学调研,发现“大多数企业还处于大数据的入门阶段,还小具备真正挖掘大数据的能力”,而且,“只有巧%的受访者认为所在企业的数据可访问性够好或者达到世界级水平,只有21%的受访者认为所在企业的分析能力够好或者达到世界水平”.显然,对于普通公众来说,搜集数据、挖掘数据的难度更大,差异也更大。在搜索引擎主宰信息流向的时代,公众就因为使用不同的搜索引擎而产生数字鸿沟,使用普通的搜索引擎与使用较为专业的搜索引擎和数据库之间存在着差异。在大数据时代,公众不仅要知道如何利用专业的搜索引擎,还需要在海量的信息中迅速寻找最有价值的信息,囿于公众能力的差异,在搜集阶段产生的数字鸿沟将难以避免。而且,互联网下的数据处于不断更新的状态,时效性是非常重要和关键的。在对“知识鸿沟”的研究中,西方学者
J.S.艾蒂玛和
F.G.克莱因曾经提到“上限效果”,指的是随着时间的推移,知识鸿沟会逐渐减少。但是在互联网时代,信息的价值和及时性有密切的关系,即使随着时间的推移公众在搜集数据上的“鸿沟”逐渐缩小,但是后来者所拥有的数据价值也会大打折扣。媒介环境学派的代表性人物莱文森对信息超载的论述可能会对缓解大数据时代数据搜集所产生的差异提供帮助,他认为建立信息分类法则可以解决信息超载的困扰,比如在图书上建立图书分类法则并依据这一法则运作,就能够解决图书馆的信息超载问题,这一思想对解决长期困扰人类的信息超载具有普遍的启示意义。
(二)分析数据的数字鸿沟
谁拥有数据会产生差异,而在同等拥有数据的情况下,公众利用数据的能力不同,也会产生差异。大数据既包含以数量关系为基础的结构化数据,也包含以定性描述为主的非结构化数据,而且,非结构化数据往往占有很大的比例。因此,在大数据时代,同样拥有数据并不代表着同样能够利用数据,分析数据和掘取价值上的数字鸿沟依然需要引起我们的警惕。
1.数据删除
大数据时代是一个信息高度碎片化的时代,信息中的重复、噪音、冗余和信息中的人为因素(网络水军)等,都影响到人们对数据的分析与利用,此时,删除数据与收集数据同样重要。除《大数据时代:生活工作与思维的大变革》之外,舍恩伯格还有一部影响深刻的着作-《删除:大数据取舍之道》。在这部着作中,舍恩伯格提醒人们在大数据时代“记忆成为常态,而遗忘成为例外”,因此要注意信息取舍之道;在这个“没有遗忘的世界里”,遗忘恰恰成为一种宝贵的信息处理方式与权利数据删除是一个人性化的问题,随着“电脑原生代”的成
长,每个人都有着青涩的、尴尬的、甚至小堪回首的过去,互联网之前人们会尝试遗忘这些小愉快的过去,但是互联网的记忆让每个人小得小而对这样一个现实:人们可能会为若十年前犯过的错误买单。
删除同样是一个技术性的问题,在互联网时代,历史悠久的数据会逐渐成为“数据垃圾”,不但占用大量的存储资源,而且也会影响对当下数据的分析,评估数据与删除数据成为大数据时代必不可少的数据处理方式。但是具体到个人就会产生一个问题,人不可能像机器一样去评估和处理,只能按照过往的经验来处理信息。另一位国外学者蒂奇诺在分析“知识鸿沟”所形成的原因时提到,个人的信息储备也会产生“知识鸿沟”,即“正规教育和从大众媒体中获得的信息会帮助受教育程度较高的人提供理解知识的背景”.大数据时代并未改变人们接受信息的习惯,因此,在大数据时代依然是受教育程度较高的人先学会接受和删除信息。删除还有一个颇具哲学意味的意义,在大数据时代,选择即删除。人对数据的接受具有零和效果“,朝向一组数据的同时意味着放弃另外的数据,这也是另外一种意义上的删除,处理掉低质量的过时数据是发现大数据意义的前提。知名学者马修·E·梅所着的《精简:大数据时代的商业致胜法则》,同样也提到大数据时代的信息删除与精简问题。在大数据时代,能够快速在第一时间获得最有价值数据的企业会逐渐发展起来,而不懂大数据或沉迷于大数据的企业会逐渐落伍。
2.数据可用
大数据时代提供了一个多元、详细且复杂的数据环境,在大数据时代,一切现实都可以量化为数据。但是如果用大数据来创造价值就需要从海量数据中找出有价值的数据,并把数据还原为现实。因为”,拥有一个数据集,无论它们多大或者多小,其自身都不会带来任何价值。“大数据的最终价值还是体现在数据的”可用“之上。与此同时,关于数字鸿沟的问题也出现在数据的”可用“上,大数据如同提供了一个美味的坚果,不借助工具很难打开它,而大数据所使用的”云存储、云计算“又不是任何公众都能轻易掌握的。少部分人掌握了分析数据与应用数据的能力,还有相当多的大众面对浩如烟海的大数据不知所措,最终陷入信息超载的焦虑之中。
弥补数据可用的”数字鸿沟“需要让数据变得直观而可视,这仍然是一个涉及公共性的话题。把数据还原为现实既需要数据分析的人工智能技术,也需要人的敏锐的分析与判断能力,更为关键的是,需要把对数据所提示的环境真实地传达给公众。政府和媒体要做的依然很多,首先需要数据处理技术的普及,把解读关于公共事务的大数据当做一个公共事业,如在 20世纪 60 年代,被称为”人工智能之父“的约翰·麦卡锡曾预言”有朝一日,计算可能变成公共设施“.其次,媒体要做好数据与现实之间”摆渡人“的角色,不仅要用大数据来分析受众获得收益,更要体现媒体的公共性,让受众能够读懂大数据并受用于大数据。比如,美国记者在报道龙卷风时”将龙卷风破坏房屋的损毁数据,与地图相重叠,制成大数据地图。“这样,受众既能够比较精确地了解龙卷风带来灾害的大体区域,又能够精确理解某个区域龙卷风造成损失的具体情况。
(三)数据思维的数字鸿沟
大数据热所带来的重要变化是关于数据思维的变化,关于大数据的讨论有很多,但并非有了”大数据“这样一个概念我们的信息环境就自然而然发生了质的变化,而是在互联网逐渐走向海量数据的今天,从”数字化生存“转向”数据化生存“的大数据思维让人们多了一个认识世界的视角。在大数据技术之外的数字鸿沟来自于人们的思维层面,即人们对待数据的思维存在差异。
1.超越大数据
大数据时代的思维之一是要超越”数据迷思“,把数据当成一种工具而不是一种数据霸权。舍恩伯格在《大数据时代》一书中指出大数据带来的三种变化:不是随机样本,而是全体数据;不是精确性,而是混杂性;不是因果关系,而是相关关系。这些变化对于传统的定量研究方法有极大的影响,可是定量方法的改进并不能取代定性的研究,必须超越数据才能发现数据背后的意义与价值。于是,大数据思维包含了三个层次。第一个层次是发现海量数据,了解海量数据的潜在价值,但并不能很好的利用数据;第二个层次是能够较好的利用数据,但是往往陷入数据崇拜,解决不了关于意义的问题;第三个层次是能够利用数据,但是也能够同时超越数据,发现价值。这三个层次在大数据的发展过程中既是一个历时的过程,也是一个共识的过程。大数据概念的兴起与扩散还需时日,因此在数据思维上三个层次的”数字鸿沟“仍将长期存在。
2.大数据素养
数字鸿沟的减小也需要在硬件与软件两个方向上作出努力,在大数据时代仍然如此。从最近几年的中国互联网络统计报告来看,硬件的数字鸿沟在逐渐缩小,而软件的数字鸿沟仍在扩大。消弭数字鸿沟需要政府、企业等开放公共数据并提供利用公共数据的方法,还需要提升全体公民的大数据素养,实现大数据的民有与民享。数据素养也被称为数据信息素养,主要指人们在科学数据的采集、组织和管理、处理和分析、共享与协同创新利用等方面的能力,以及在数据的生产、管理和发布过程中的道德与行为规范。全面提高全民的数据素养,我们才能自信地迎接大数据时代的到来,并利用大数据为人类创造新的福祉。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在 “神经网络与卡尔曼滤波融合” 的理论基础上,Python 凭借其丰富的科学计算库(NumPy、FilterPy)、深度学习框架(PyTorch、T ...
2025-10-23在工业控制、自动驾驶、机器人导航、气象预测等领域,“状态估计” 是核心任务 —— 即从含噪声的观测数据中,精准推断系统的真 ...
2025-10-23在数据分析全流程中,“数据清洗” 恰似烹饪前的食材处理:若食材(数据)腐烂变质、混杂异物(脏数据),即便拥有精湛的烹饪技 ...
2025-10-23在人工智能领域,“大模型” 已成为近年来的热点标签:从参数超 1750 亿的 GPT-3,到万亿级参数的 PaLM,再到多模态大模型 GPT-4 ...
2025-10-22在 MySQL 数据库的日常运维与开发中,“更新数据是否会影响读数据” 是一个高频疑问。这个问题的答案并非简单的 “是” 或 “否 ...
2025-10-22在企业数据分析中,“数据孤岛” 是制约分析深度的核心瓶颈 —— 用户数据散落在注册系统、APP 日志、客服记录中,订单数据分散 ...
2025-10-22在神经网络设计中,“隐藏层个数” 是决定模型能力的关键参数 —— 太少会导致 “欠拟合”(模型无法捕捉复杂数据规律,如用单隐 ...
2025-10-21在特征工程流程中,“单变量筛选” 是承上启下的关键步骤 —— 它通过分析单个特征与目标变量的关联强度,剔除无意义、冗余的特 ...
2025-10-21在数据分析全流程中,“数据读取” 常被误解为 “简单的文件打开”—— 双击 Excel、执行基础 SQL 查询即可完成。但对 CDA(Cert ...
2025-10-21在实际业务数据分析中,我们遇到的大多数数据并非理想的正态分布 —— 电商平台的用户消费金额(少数用户单次消费上万元,多数集 ...
2025-10-20在数字化交互中,用户的每一次操作 —— 从电商平台的 “浏览商品→加入购物车→查看评价→放弃下单”,到内容 APP 的 “点击短 ...
2025-10-20在数据分析的全流程中,“数据采集” 是最基础也最关键的环节 —— 如同烹饪前需备好新鲜食材,若采集的数据不完整、不准确或不 ...
2025-10-20在数据成为新时代“石油”的今天,几乎每个职场人都在焦虑: “为什么别人能用数据驱动决策、升职加薪,而我面对Excel表格却无从 ...
2025-10-18数据清洗是 “数据价值挖掘的前置关卡”—— 其核心目标是 “去除噪声、修正错误、规范格式”,但前提是不破坏数据的真实业务含 ...
2025-10-17在数据汇总分析中,透视表凭借灵活的字段重组能力成为核心工具,但原始透视表仅能呈现数值结果,缺乏对数据背景、异常原因或业务 ...
2025-10-17在企业管理中,“凭经验定策略” 的传统模式正逐渐失效 —— 金融机构靠 “研究员主观判断” 选股可能错失收益,电商靠 “运营拍 ...
2025-10-17在数据库日常操作中,INSERT INTO SELECT是实现 “批量数据迁移” 的核心 SQL 语句 —— 它能直接将一个表(或查询结果集)的数 ...
2025-10-16在机器学习建模中,“参数” 是决定模型效果的关键变量 —— 无论是线性回归的系数、随机森林的树深度,还是神经网络的权重,这 ...
2025-10-16在数字化浪潮中,“数据” 已从 “辅助决策的工具” 升级为 “驱动业务的核心资产”—— 电商平台靠用户行为数据优化推荐算法, ...
2025-10-16在大模型从实验室走向生产环境的过程中,“稳定性” 是决定其能否实用的关键 —— 一个在单轮测试中表现优异的模型,若在高并发 ...
2025-10-15