
大数据战争_数据分析师
“喂?不要!不要!”
办公室里常能听见这样简短的手机对话。你的同事在不到3秒的时间内对这个未知来电按下了结束通话的按钮。而电话的另一头,你都可以想象到是一个甜腻客气至极的推销员声音。现如今,你以及你的同事常常会被莫名其妙的广告推销电话、短信所困扰,以至于智能手机上都必备一个能自动屏蔽骚扰电话和垃圾短信的小软件。对于这类事情,其实你只要稍微细想一下就能发现至少两个问题:一是你的姓名、手机号、家庭住址等私人信息肯定被某无良的中介、营业厅或是网站给出卖了;二是这些条目简单的数据信息真的就能卖钱!
在这个科技高速发展的信息时代,我们的日常生活基本上都可以数字化地表示。你几点几分从什么位置的家出门,坐什么车花了多长时间到了工作地点。这期间,你每发一次微博和打一次电话,包括经纬度在内的精确地理位置信息都被记录在案,而你的通话记录在许多年之后仍可以被调阅查询。电子设备日新月异,互联网无孔不入,你的一举一动都产生了大量的数据。虽然,现在大数据的概念被热炒,但大数据本身并不是技术,而是一种可以催生出技术的时代现象。记录和管理这些数据成为信息时代的突出特征,我们称之为“大数据时代”的降临也并不过分。虽然你自己可能意识不到,也不懂玄妙的科技内核,但是这些庞大的、看似平常而又琐碎的数据其实已经形成了一种宝贵的资源。大数据可以带来惊人的财富,因此它也成为了人们争相抢夺的目标。若想把握未来,就一定不能放弃这个没有硝烟的新战场。
大数据有多大?
近10年来,世界上电子数据增长的规模和速度是异常惊人的。美国国家安全局自2001年,也就是9·11事件发生前7个月始,就一直在不分类别地搜集和保存所有美国公民的详细电话通讯记录,5年内这一数量就多达1.9万亿条。由于涉嫌侵犯公民的隐私,这一情况直到2006年被《今日美国》披露后受到了广泛的质疑。现如今,数据量的增长更是指数级的。2009年,美国政府产生的数据达848PB(848×106GB),并且仅美国的医疗数据就达150EB(150×109GB)。2011年全球产生的数据量已经达到了1.8ZB(1.8×1012GB),并且预计将每年翻番。
产生如此多的数据并不难理解。从二维码的流行以及智能电子设备的普及就可以感受到,我们周遭的所有东西基本都电子化了,物联网正在悄然搭建。可以细想一下,你身边哪怕是最简单的一个物件都曾在超市里有过一个一维条码。也正是因为一维码的数据信息存储量不再能满足日常生活,二维码才开始广泛应用的。未来,哪怕是一栋建筑、一辆汽车也都将会有二维码,通过手机扫描这个码,我们可以即刻在网上搜索到关于它的所有历史信息数据。世界上将不再会有未被编码的漏网之鱼了。也可以说,一旦被遗漏,那么它就等同于不存在。
不过,巨大数据量的产生如果只是关于死物的话,那倒并没有什么值得大惊小怪的。真正会带来革命性改变的是关于活人的数据信息。大数据时代形成至关重要的一点就是,人类行动的数据信息终于可以被系统地、规模化地掌控了。根据公路、公交、地铁、出租车、商场及办公楼等建筑物里现有摄像头的安装数量估计,如果说一个人每天在监视器上出镜次数过百,你应该一点也不感到新奇。特别是,我们现在的工作和生活一刻也离不开电脑和智能终端。也就是说,你的一举一动都会产生大量的数据,并被互联网和移动运营商记录下来。要知道,预测人类的行为,这在以往基本上是不可能完成的任务。而在大数据时代,研究和预测人类的行为终于变为可能,这一点意义非凡。
人类的行为究竟可不可以预测?
有人会质疑,人类的行为这么复杂,影响因素那么多,所思所想与所做所为大相径庭,表里不一、谎话连篇的人比比皆是。特别是,真实思想不可能被电子设备捕捉,仅仅依托于分析你以往的行动历史,怎么就能预测出你之后的实际行为?
的确,长久以来,人们都普遍抱有类似的观点,认为日食和流星雨等自然规律是可以预测的,但是所有的预测一旦涉及到历史和社会科学问题,就只能以失败告终。还有人认为,事情顺其自然地发生就好,预测本身就没什么意义。但事实上,预测在我们周围无处不在。比如,天气预报因为极大地影响人们的工作和生活而成为收视率最高的节目,工作计划也是每年每月必做的功课;甚至,建一栋房子,修一条马路前都需要预估容量和车流量,不然建大了是浪费,建小了会拥堵。
关于人类行为的预测,其实只需要理解一条精髓就好——人都是习惯的奴隶。事实上,精确地预测出一个人下一分下一秒会做什么动作毫无必要。只需要大概预估出某人在某一天的某一个时间很可能出现在什么位置,就已经能产生巨大的作用和影响了。以你自己为例,想预测你周三下午3点的位置一点也不难,因为你在工作单位的可能性非常之高。工作日里,你起床、出门、乘坐何种交通工具,到达单位,吃饭以及回家的时间和路线基本都有章可循。稍稍研究一下你周末的出行和聚会习惯,也可以发现不少规律。甚至细想一下,你和某人约会的地点,都很可能常常是某一家咖啡馆或餐厅。也许你会生病请假、出差办事,但那都是异常情况。我们基于各人习惯进行预测的准确度确实会因人而异,但总体上讲,准确度都比你想象的高。
由于人类从来没有像今天这样如此依赖网络和电子设备,因此,大数据时代产生如此多的电子踪迹让研究每个人、每个群体,甚至整个人类的习惯成为了可能。这可以带来很美好的生活。比如,基于对你位置的实时定位和数据分享,在你进地库时就开始着车,进门前就亮灯,坐在位置前电脑就开启,咖啡就上桌,这些在技术上并不难实现。同样,基于对你的踪迹的预测,你每走一步之前都可以设计好一个陷阱等着你,你这一步踩不到,下一步也总能踩到。以前的“飞天大盗”要实地勘察几个月甚至数年来分析某人或某机构的习惯规律以实施犯罪行为。以后,只需要一台电脑和简单的黑客手段就可以做到了。而GPS实时定位信息及预测仅仅是大数据时代一个很小的断面,你可以据此推想其他方面更为美好或更为恐怖的生活状态。
商机还是危机?竞争还是战争?
当你进入亚马逊的网站时,它会“猜测”你可能会喜欢什么样的产品,并在首页给你推荐。当你浏览京东网页上的某一产品时,类似的产品链接就在旁边方便你点击、比对。这是因为在电脑上,你什么时间浏览了什么网站,点击了哪些链接,网上购物时买了什么样的东西,花了多少钱,你中间点击了哪些、什么样、什么价格的产品,最后做出了什么样的选择都有迹可寻。大型电商网站会基于这些数据,分析顾客习惯并优化自己的产品结构,变更网页,以达到促进、方便消费的目的。这是通过“数据相似性”的简单应用就达到特别成功效果的一个典型案例。由于云技术和物联网慢慢渗透到我们生活的方方面面,以及物流业的蓬勃发展,我们过上了更为便利的生活。也正是基于这些变化,实体商店正在电商的打压下迅速走向衰落。
从企业层面来讲,大数据已经带来了产业的巨大改变,因此这是一个商机和危机并存的时代。比如,看着淘宝、京东实力的扩大,传统的电器卖场苏宁也开始走向电商转型的道路。银行保险业更是先一步就建立了大规模、高水平的数据中心和研究机构。理财、保险产品的设计和定价没有客户数据的采集和分析作依托,就是无稽之谈。谷歌、微软之类的公司之所以强大,正是因为庞大用户数量带来的海量用户大数据让他们占尽了优势。
从国家层面来讲,大数据同样已经成为一个改变实力消长的重要环节,国与国之间的竞争在大数据时代的表现将是信息上的残酷战争。这并不是危言耸听。在过去,掌握真实材料和撰写历史是只有极少数人才可以享有的一种特权,研究和发现人类的行为规律很难也很不精确。而在大数据时代,无法估量的信息数据就那么冷冰冰地躺在那里,它本身虽然没有生命,但是通过管理、筛选和分析,许多关于人类社会行为的论点会被验证也会被推翻,许多人类行为的奥秘也会浮出水面。正如同掌握了日月星辰的规律才可以预测并加以利用一样,未来谁能从大数据中发现并掌握人类行为的规律,才能在信息时代的严酷战争中处于优势地位。
大数据是不是让我们更加无助?
应该说,在科技改变生活的大数据时代,人文社会科学领域燃起了新的希望。在科学的研究方法指导下,社会调查和实践的难度在降低,规律的发现和验证变得可行。以往社会科学工作者们对于社会组织架构及人类行为的许多理论都是空想,以后基于大量科学、可靠的数据,就可以进行实实在在的调查研究。
大到一个国家,小到一个行业,这些数据都非常宝贵,其重要作用不可小觑。举一个简单的例子,我们国家是一个人口基数庞大的国家,因此病患也非常多,从医疗卫生的角度考虑,医疗、养老都是巨大的负担。但是,如果我们从医药、治疗的角度来讲,这些病患则是一笔巨大的财富,患者生病、治疗及用药产生的大量数据为我们进行医疗研究、药品研发提供了大量鲜活的样本。实际上,中国也正因为患者样本的高充足率,已经成为了国际药品企业争相利用的市场,而中国的不少医生也因为“见多识广”而成为技术娴熟的名医。同理,由于人口众多,大数据也为我国社会科学领域的迅速崛起提供了前所未有的机遇,如果能把握住就能赢得未来,把握不住就会一败涂地。
对个人而言,不少人在了解了大数据之后,都会为更美的明天而欣喜,但同时也会因不自觉地陷入了数据的囹圄而担忧和惊惶。无时无刻不被数据的大网监视和洞察,让人无所适从。虽然现在不少人都乐于在网络上大搞“生活秀”,但没有隐私地做一个透明人,终究不是所有人的愿望。有人担心,大数据时代的到来会将人类置于无助的境地。但事实上,如同所有科技一样,数字都是死的,关键在于运用它的人。大数据带来的是天堂还是地狱也取决于掌握它的人。此外,即使大数据天网恢恢,它所捕捉的永远是人的行为,而非思想。而对于人类而言,脑袋里装的东西才是真正可以永恒的财富,巨型的数据机器是掠夺不走的。这就好比,从无处不在的摄像头,你可以看到我最近经常会去某个商场和某家店逛,并精确分析列出我去的次数、时间以及停留的时长,并据此得出我是一个购物狂或时尚癖的结论。可实际上,我心里所想却是为了去那里“偶遇”之前曾一见钟情的一位不知名的美丽姑娘。
大数据的特征
大数据是指大量、高速、复杂、变化不定的数据,需要用先进的方法和技术实现信息的收集、存储、分配、管理和分析。
体量大、类型多和速度快是大数据的显著特征。目前,15%的信息是结构化信息,便于存储在关系型数据库中。电子邮件、视频、呼叫中心对话和社交媒体等非结构化信息占85%。这对于运用常规的业务情报工具来提取有意义的信息造成了挑战。传感器、平板电脑和移动电话等产生信息的设备继续成倍增加。随着全世界的联系更加紧密,社交网络也在加速发展。这些共享信息的选择意味着公众、政府和企业间互动方式的根本转变。
从大数据的特征来看,数据源增加,传感器的分辨率提高,使得大数据的体量大。数据源增加,数据通讯的吞吐量提高,数据生成设备的计算能力提高,使得大数据的速度快。移动设备、社交媒体、视频、聊天、基因组学研究和各种传感器使得大数据的类型多。以数据为基础的决策要可追溯,要有理有据,这使得大数据还应具备准确性的特征。
大数据的这些特征将决定政府在大数据业务和整个大数据生态系统中收集、分析、管理、存储及分配数据的方式。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在 “神经网络与卡尔曼滤波融合” 的理论基础上,Python 凭借其丰富的科学计算库(NumPy、FilterPy)、深度学习框架(PyTorch、T ...
2025-10-23在工业控制、自动驾驶、机器人导航、气象预测等领域,“状态估计” 是核心任务 —— 即从含噪声的观测数据中,精准推断系统的真 ...
2025-10-23在数据分析全流程中,“数据清洗” 恰似烹饪前的食材处理:若食材(数据)腐烂变质、混杂异物(脏数据),即便拥有精湛的烹饪技 ...
2025-10-23在人工智能领域,“大模型” 已成为近年来的热点标签:从参数超 1750 亿的 GPT-3,到万亿级参数的 PaLM,再到多模态大模型 GPT-4 ...
2025-10-22在 MySQL 数据库的日常运维与开发中,“更新数据是否会影响读数据” 是一个高频疑问。这个问题的答案并非简单的 “是” 或 “否 ...
2025-10-22在企业数据分析中,“数据孤岛” 是制约分析深度的核心瓶颈 —— 用户数据散落在注册系统、APP 日志、客服记录中,订单数据分散 ...
2025-10-22在神经网络设计中,“隐藏层个数” 是决定模型能力的关键参数 —— 太少会导致 “欠拟合”(模型无法捕捉复杂数据规律,如用单隐 ...
2025-10-21在特征工程流程中,“单变量筛选” 是承上启下的关键步骤 —— 它通过分析单个特征与目标变量的关联强度,剔除无意义、冗余的特 ...
2025-10-21在数据分析全流程中,“数据读取” 常被误解为 “简单的文件打开”—— 双击 Excel、执行基础 SQL 查询即可完成。但对 CDA(Cert ...
2025-10-21在实际业务数据分析中,我们遇到的大多数数据并非理想的正态分布 —— 电商平台的用户消费金额(少数用户单次消费上万元,多数集 ...
2025-10-20在数字化交互中,用户的每一次操作 —— 从电商平台的 “浏览商品→加入购物车→查看评价→放弃下单”,到内容 APP 的 “点击短 ...
2025-10-20在数据分析的全流程中,“数据采集” 是最基础也最关键的环节 —— 如同烹饪前需备好新鲜食材,若采集的数据不完整、不准确或不 ...
2025-10-20在数据成为新时代“石油”的今天,几乎每个职场人都在焦虑: “为什么别人能用数据驱动决策、升职加薪,而我面对Excel表格却无从 ...
2025-10-18数据清洗是 “数据价值挖掘的前置关卡”—— 其核心目标是 “去除噪声、修正错误、规范格式”,但前提是不破坏数据的真实业务含 ...
2025-10-17在数据汇总分析中,透视表凭借灵活的字段重组能力成为核心工具,但原始透视表仅能呈现数值结果,缺乏对数据背景、异常原因或业务 ...
2025-10-17在企业管理中,“凭经验定策略” 的传统模式正逐渐失效 —— 金融机构靠 “研究员主观判断” 选股可能错失收益,电商靠 “运营拍 ...
2025-10-17在数据库日常操作中,INSERT INTO SELECT是实现 “批量数据迁移” 的核心 SQL 语句 —— 它能直接将一个表(或查询结果集)的数 ...
2025-10-16在机器学习建模中,“参数” 是决定模型效果的关键变量 —— 无论是线性回归的系数、随机森林的树深度,还是神经网络的权重,这 ...
2025-10-16在数字化浪潮中,“数据” 已从 “辅助决策的工具” 升级为 “驱动业务的核心资产”—— 电商平台靠用户行为数据优化推荐算法, ...
2025-10-16在大模型从实验室走向生产环境的过程中,“稳定性” 是决定其能否实用的关键 —— 一个在单轮测试中表现优异的模型,若在高并发 ...
2025-10-15