京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据真的是“未来的新石油”
当前IT业最热门的话题应该就是大数据了,这个两年前才被炒作起来的概念,现在已无处不在,占居了互联网的半壁江山,它与云计算一起成为未来信息技术发展最重要的内容。处于IT行业的人们,如果不知道大数据,不了解大数据所创造的那些神话般的故事,就好象已经跟不上信息技术的发展,成为时代的落伍者了。
那么什么是大数据?现在还没人能给出一个确切的答案,它同云计算一样,是一个形象但却笼统的概念。大家一致的理解是从4V的角度来描述这一概念的内涵。所谓4V就是说大数据具有体量巨大(Volume)、种类繁多(Variety)、实时处理(Velocity)、数据真实(Veracity)的特性。信息技术的发展,使互联网遍布世界的每个角落,各种各样的信息都可通过网络进行传播。世上所发生的每件事情,人类所进行的每项思考,社会所进行的每点进步,知识所增加的每种内容都可通过互联网进行汇集。网络技术、传感技术与射频技术使各种事物都可产生大量数据。事物的内容、时空、方位、特性都可转化为数据,这些经济的、社会的、规范的、杂乱的、简单的、复杂的等各式各样的数据代表了不同事物的内涵。代表不同事物的海量数据可以通过网络进行汇集,汇集后的整体数据反应了事物的本质特性或发展趋势。而这种反应事物本质特性或发展趋势的数据具有一定的价值,通过高性能计算机的数据提取、价值分析、数据表达等大数据技术,可以从大数据中把这些价值提取出来。不同的需要可以提取出不同的价值,所有的价值都可以为人类服务,这就是大数据的本质。
大数据,这一鲜明而又形象的概念之所以如此引人注目,是因为许多像亚马逊、谷歌这样的大公司为它杜撰了无数神话般的故事。每一个故事都告诉人们,大数据具有无所不能的洞察力。它可以象伟大的先知一样预测未来,可以利用玄妙的相关关系推测人的喜好,可以利用宠大的数据窥探人的内心,可以利用趋势分析引导人的行为,甚至可以用事物发展曲线来控制人的思维,改变人类社会的发展方向。
大数据利用最多的地方是商业领域。大家都知道尿布与啤酒的故事,通过大数据分析,找出这两个毫不相干的事物之间的关联,利用推荐系统,向不同用户提供不同的产品推销方案,提高产品的销售量;另一个众所周知的故事就是通过购物记录来分析少女怀孕的案例,通过分析用户的购买行为,推测用户的现在状态与未来需求。尽管这一案例因为侵犯别人隐私而广受批评,但却说明了大数据分析在商业领域的价值。还有无数这样或那样的故事,都说明大数据在分析人们的喜好与购买习惯上的巨大作用,利用这种分析,商家可以更好地进行营销。权威的市场调查机构说,大数据将会改变未来的商业规则,实时竞价系统(RTB)、更加智能的推荐系统以及基于大数据的商业智能分析(BA),使企业能够生产更加适合用户喜好的产品,能够找到向用户推销产品更好的方法,能够为用户提供更好的服务,能够利用有限的资源产生更多的效益,大数据的这些功能将会使经济社会更快更好地发展。
大数据的另一个应用领域就是社会公共领域。利用大数据,政府可以更好地管理社会,为社会提供更好的公共服务;教育部门可以更好地获取与传播知识,提高民众的素质;卫生部门可以预测重大流行疾病的发生,提前作出防范预警;安全部门可以监控社会状况,确保国家不受破坏。谷歌公司前几年利用大数据绘制了“世界流感地图”[1]用来帮助人们了解世界各地流感的发病情况;利用大数据预测禽流感在各地的爆发趋势,为民众提供预防建议,向卫生部门提供监控资料。在公共安全领域,大数据也有巨大的作用,如美国就建立了基于各种传感技术与大数据技术的网络监控系统,预测重大社会公共事件的发生,比如爆发大规模游行活动、可能遭受的恐怖袭击等。
随着科技的发展,大数据的应用也延伸到个人服务领域。穿戴式设备的产生标志着信息技术的发展到了以人为中心的阶段。像谷歌眼镜、苹果手表这样的穿戴式设备把技术与人体结合在起来,使人类可以更加便捷得获取信息。这些穿戴式设备利用大数据为个人提供学习、生活、健康等方面的数据服务。大数据通过穿戴式设备发挥其作用,同时穿戴式设备本身也成为收集数据、构建大数据的来源。穿戴式设备作为一种工具,大数据是其服务的内容。
大数据有如此巨大的作用,让一些信息技术发达的国家倍加关注,很多大型信息公司也把大数据当作公司未来发展的重点。美国是当今世界最为重视大数据发展的国家,也是利用大数据较好的国家。美国政府把大数据作为未来信息技术发展的重中之重,认为大数据将引起信息技术发展的革命,改变未来社会的发展模式。2012年3月美国政府发布了《大数据研究和发展倡议》,把大数据称作“未来社会发展的新石油”,把发展大数据研究提到国家战略的高度上来。为掌控这一“未来的新石油”,引领世界技术发展方向,联邦政府制定了大数据研究发展计划,推进相关研究机构进行科技研究和创新发现。改进从海量数据中提取价值的方法,提高从数据中获取知识的能力,加速美国在科技领域中的前进步伐,确保美国在信息技术领域的领先地位。美国政府指定了国家科学基金(NSF)、国家卫生研究院(NIH)、能源部(DOE)、国防部(DOD)、国防部高级研究计划局(DARPA)、地质勘探局(USGS)6个联邦部门来负责推进大数据的研究,并计划投资2亿美元用来研究收集、储存、保留、管理、分析和共享海量数据的技术。
政府的投入与政策的支持,使那些本来就注重大数据研究的公司更加主动,纷纷加大对大数据研发与利用的投入,取得了不菲的成绩。如Apache基金会开发的Hadoop分布式处理系统,经过不断发展完善,现已成为大数据处理的标准结构;微软开发的Windows Azure平台使大数据的处理更加人性化、简易化;还有其它公司,经过不断的创新研究让大数据技术更加完善、更加实用。技术的发展使大数据的价值更加突显,人们对它的期望也不断提高。据说谷歌公司利用大数据不但可以预测流感的发生,也可预测美国的经济复苏情况;不但可以预测明年服装的流行色,也可预测某位娱乐名星是否可以红遍世界。谷歌公司最近一个广为流传的大数据案例就是,在2013年的奥斯卡电影节上,它预测准了大部分的奥斯卡奖项得主。Facebook也是利用大数据的典型公司,大数据是这家社交网站最大的价值所在。通过对大量社交信息的分析,Facebook可以了解用户的生活习惯与购买喜好,利用定向推荐广告,为这家年轻的公司每年创造上百亿的产值。
还有许多真实的或杜撰的有关大数据的美妙故事,每一个都反应了大数据在某一领域的巨大作用,这些故事的汇编,给人们描绘了一个大数据主宰的奇幻世界。在那里,人们利用大数据可以预测任何一件事情的发展趋势,可以完成一切不可能完成的事情。每一个人都是先知、都是智者,在大数据的支持下,每一个人都通天文、晓地理,前知一千后知八百,如齐天大圣般十八般武艺样样精通。然而真的是这样吗?
可惜的是,理想很丰满,实现很骨感。至少在当前大数据还没有那么大神奇,就连谷歌公司所说的利用人们的检索词可以用来预测流感的发展这种人人都相信的故事也没能发生。当H7N9在中国出现的时候,谷歌没能给出任何有关这一流感发生与发展的预测,更不用说事先给民众发出预警,提醒人们防范了;欧洲的金融危机持续了五六年,至今没有一家大数据公司能预测这场金融危机何时结束,就连未来是向好还是向坏发展的方向都不能预测;在商业领域,个性化广告推荐这种理应可以做好的事,大数据也没能表现出其超强的功用。最近经过大数据改造的淘宝网个性推荐系统没比五六年前好多少;号称利用大数据使图书销售量大幅增加的亚马逊网站上推荐的书,没有一本是我喜观的。
2013年4月15号,波士顿马拉松比赛现场发生了震惊世界的恐怖袭击[4]。美国人悲伤地发现,那些基于现代信息技术与大数据分析的网络监控系统,并没能确保国家的安全,大数据分析在防范恐怖袭击方面,并不象人们所期望的那样有效。看来这个被称为未来技术竞争至高点的大数据,在当下还不能如人们所期望的那样有用。
产生如此悲观想法的原因,一是虽然大数据可能代表了未来信息技术发展的方向,具有光明的前景。但是在人们的意识与相关的配套技术还没有发展起来的情况下,大数据还不能发挥其巨大作用。二是大数据还没有一个确切的定义,它所具有的内涵还不能被清晰地诠释。美国把大数据被称作“未来的新石油”,然而石油是不可再生的,数据却是随时随地都在产生,越是往后产生的数据越多,数据的准确性越高,对数据的处理能力越强,这让人们对现在就收集并占有大量数据的必要性产生怀疑;还有从大数据中提取价值首先要有需求,没有需求就不知道从大数据中提取什么,当人们的思维还没有发展到可以完全掌控数据,还不知道大数据到底有什么用处时,很难对其产生需求;没有需求就没有数据收集的方向,没有方向的收集就会造成巨大浪费;在方向不明的时候,唯一可做的就是收集所有可能收集到的数据,然而这样不但会给数据的存储、管理造成具大的成本,也会产生一些法律的问题,例如是否会侵犯他人隐私等。再有,随着科技的发展,穿戴式设备会不断智能化并在生活中得以普及,这种以人为中心的智能设备本身就会不断分析所取得的数据,提取个人的喜好等特性,学习与适应人个的品性,具有人的品性特征,这样就使得从大数据中分析人的品性失去了意义。
以上这一切都让人们对大数据的发展未来产生了怀疑。因此,当美国制定大数据发展战略,把它看成“未来的新石油”时,世界其它国家虽然也十分重视这一技术的发展,却没有制定相关发展战略。这有可能是其它国家在大数据技术方面落后于美国,还不能制定明确的发展目标,也可能是人们对这一技术的发展前景还没有一个清楚的认识,无法确定大数据是否真的可以引领未来技术的发展方向。因此,我们还是暂时忘了大数据吧!别再关注那些炙热的概念炒作,静下心来认认真真地想一想大数据的真正内涵。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数字化运营中,“凭感觉做决策” 早已成为过去式 —— 运营指标作为业务增长的 “晴雨表” 与 “导航仪”,直接决定了运营动作 ...
2025-10-24在卷积神经网络(CNN)的训练中,“卷积层(Conv)后是否添加归一化(如 BN、LN)和激活函数(如 ReLU、GELU)” 是每个开发者都 ...
2025-10-24在数据决策链条中,“统计分析” 是挖掘数据规律的核心,“可视化” 是呈现规律的桥梁 ——CDA(Certified Data Analyst)数据分 ...
2025-10-24在 “神经网络与卡尔曼滤波融合” 的理论基础上,Python 凭借其丰富的科学计算库(NumPy、FilterPy)、深度学习框架(PyTorch、T ...
2025-10-23在工业控制、自动驾驶、机器人导航、气象预测等领域,“状态估计” 是核心任务 —— 即从含噪声的观测数据中,精准推断系统的真 ...
2025-10-23在数据分析全流程中,“数据清洗” 恰似烹饪前的食材处理:若食材(数据)腐烂变质、混杂异物(脏数据),即便拥有精湛的烹饪技 ...
2025-10-23在人工智能领域,“大模型” 已成为近年来的热点标签:从参数超 1750 亿的 GPT-3,到万亿级参数的 PaLM,再到多模态大模型 GPT-4 ...
2025-10-22在 MySQL 数据库的日常运维与开发中,“更新数据是否会影响读数据” 是一个高频疑问。这个问题的答案并非简单的 “是” 或 “否 ...
2025-10-22在企业数据分析中,“数据孤岛” 是制约分析深度的核心瓶颈 —— 用户数据散落在注册系统、APP 日志、客服记录中,订单数据分散 ...
2025-10-22在神经网络设计中,“隐藏层个数” 是决定模型能力的关键参数 —— 太少会导致 “欠拟合”(模型无法捕捉复杂数据规律,如用单隐 ...
2025-10-21在特征工程流程中,“单变量筛选” 是承上启下的关键步骤 —— 它通过分析单个特征与目标变量的关联强度,剔除无意义、冗余的特 ...
2025-10-21在数据分析全流程中,“数据读取” 常被误解为 “简单的文件打开”—— 双击 Excel、执行基础 SQL 查询即可完成。但对 CDA(Cert ...
2025-10-21在实际业务数据分析中,我们遇到的大多数数据并非理想的正态分布 —— 电商平台的用户消费金额(少数用户单次消费上万元,多数集 ...
2025-10-20在数字化交互中,用户的每一次操作 —— 从电商平台的 “浏览商品→加入购物车→查看评价→放弃下单”,到内容 APP 的 “点击短 ...
2025-10-20在数据分析的全流程中,“数据采集” 是最基础也最关键的环节 —— 如同烹饪前需备好新鲜食材,若采集的数据不完整、不准确或不 ...
2025-10-20在数据成为新时代“石油”的今天,几乎每个职场人都在焦虑: “为什么别人能用数据驱动决策、升职加薪,而我面对Excel表格却无从 ...
2025-10-18数据清洗是 “数据价值挖掘的前置关卡”—— 其核心目标是 “去除噪声、修正错误、规范格式”,但前提是不破坏数据的真实业务含 ...
2025-10-17在数据汇总分析中,透视表凭借灵活的字段重组能力成为核心工具,但原始透视表仅能呈现数值结果,缺乏对数据背景、异常原因或业务 ...
2025-10-17在企业管理中,“凭经验定策略” 的传统模式正逐渐失效 —— 金融机构靠 “研究员主观判断” 选股可能错失收益,电商靠 “运营拍 ...
2025-10-17在数据库日常操作中,INSERT INTO SELECT是实现 “批量数据迁移” 的核心 SQL 语句 —— 它能直接将一个表(或查询结果集)的数 ...
2025-10-16