京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据正在加速落地。中国政府出台大数据刺激计划只是时间早晚问题,企业家正在通过各种渠道去影响政府,希望其尽快承担起大数据开放和利用的牵头职责。
大数据从民到官,寻找新大陆
两会期间,与大数据相关的提案呈现出井喷之势。李彦宏在政协记者会上表示,政府应该把更多和人民生活有关的数据资料,公开的放到网络上;雷军则直接建议将大数据纳入国家战略,推动大数据切实地用起来;科大讯飞刘庆峰建议国家建设声纹数据库进行大数据反恐。张近东、马化腾、杨元庆的提案也与数据应用有着紧密联系。
大数据的重要性正在从科研理论群体转向政府决策部门,而中间的桥梁是企业。这种自下而上的推动与美国的大数据发展走的是截然不同的道路。最终仍将走到相同的目的地:政府即是大数据产业的规划指导者,也是实践者,殊途同归。
一方面,政府管理国家的过程中不断收集到海量数据并存档在案;而另一方面,政府又需要不断去统计、分析、预测这个国家的一些宏观情况,辅助决策。公安、媒体、金融、卫生、教育、贸易等行业都在不断积累数据,政府因为监管的需要又会对这些数据进行汇总。统计局,测绘局、气象局等部门则是直接在做数据的收集、分析或者利用。
政府掌握的海量数据如果能进行适度地开放,加载互联网便捷的查询能力和挖掘能力,将会释放出巨大的价值。一些原本未曾主动收集的数据,政府如果推动其收集,也将爆发巨大能力。马航失事便被一些人士认为是落后的数据同步技术,而声纹数据库如若建立则可以进行反恐,建立指纹数据库则可帮助打击儿童拐卖。
这些数据拥有巨大的社会、科研、民生和经济价值。
大数据成为新的调查方式,辅助决策
两会期间,中国政府的官方媒体CCTV在新闻报道中正在越来越多地利用大数据的研究成果,例如百度指数、百度新闻热搜榜。基于大数据的分析报告更加全局、客观和直观。数据是世界的真实映射。分析报告则反映了世界在空间和时间维度上的特性。大数据真正的优势是,它的数据收集、统计是自动化的,分析是智能化的挖掘。
新闻和大数据的关联,基于以下几个特性实时性、海量样本、数据挖掘、真实表达等。因此大数据成为媒体报道热衷的新手段快、准、新、真。百度积累的是表征人们需求的搜索数据,反映民意和国情;阿里掌握着交易数据和信用数据,甚至可以预知经济走向,金融危机前马云便可基于B2B交易数据的变化,提前预知,这便是阿里的大数据场景;腾讯擅长社交和关系数据。在新闻媒体上都有发挥空间。
在大数据的运用上,新闻媒体充当了先锋派,但大数据的价值绝不仅仅止于此。
大数据是调查的一种手段。两会代表问政建议(提案、议案),政府部门决策,都在越来越多地依托百度这样的大数据服务,从数据挖掘中获得科学决策的智力支持。
马化腾的利用互联网技术推进食品安全监督,如果能利用RFID射频技术等对食品从种植到成长到运输到销售整个流程进行数据收集,食品安全监督自然更容易。还可以定期基于大数据分析出不同地域、不同类型、不同品牌的食品安全问题,进行预警提醒。
基于空间和时间两个纬度统计空气质量变化,可以辅助环保部门进行空气治理规划。基于高中生专业意向的收集统计,则可以指导教育部门和高校进行更科学合理的招生计划。
互联网大数据谁先落地?
搜索引擎天生就在做数据生意。百度拥有两种类型的大数据:用户搜索表征的需求数据;爬虫和阿拉丁获取的公共web数据。百度是汇聚国情、民意的大数据的最大平台,包括搜索及点击行为、贴吧知道百科等UGC内容、基于位置服务(LBS)数据、收集到的海量第三方的网站数据,甚至包括微博)。它拥有一座需求和民意数据的金矿。
阿里更多的是电商和信用相关的数据,在经济、金融、贸易等相关领域的影响力不容小觑;腾讯的则是社交数据,由于封闭的特性使之数据量不可能贯穿整个(移动)互联网,但其数据在舆情监测、广告营销等方面仍十分具有价值。
整体而言,百度更容易落地大数据。数据优势主要有,
1.量大、面广:百度是中国流量排名第一的网站,在移动端拥有超过14个过亿的App。它们均会形成数据的积淀;数十万台服务器组成的爬虫集群每天不遗余力地到处去收集优质数据。阿拉丁计划则是鼓励站长主动将数据接入百度,移动端则是百度云,App通过百度云的LBS等服务为其贡献数据。海量的数据支撑着样本的有效性。
2.及时甚至超前:实时反馈,数据收集、回传、分析在物联网、4G技术和云计算的支持下,将会更加容易。相比之下,传统调研有时滞。而基于海量大数据的运算结果甚至可以可以预测未来,例如Google流感,百度迁徙,Twitter股市。
3.调研对象跟踪:一般调查只是一次或者几次,很难对一个样本进行持续跟踪。而百度大数据则可以对一个对象进行持续跟踪,进行不同时期纬度的分析。前提是不影响该对象的生活和隐私情况。
4、强大的数据技术:百度是中国最具技术基因的互联网巨头。百度在建立索引过程中需要去解析网页,去理解超链接,去分析原网页文本内容,在处理搜索时需尝试理解用户五花八门的输入请求。这些事情实际上锻炼了百度对非结构化的互联网数据的分析处理能力。而百度在硬件设施,例如集群机房等方面的布局也不含糊。
腾讯的大数据应用主要是用来改进产品,广点通算小试牛刀;阿里则是要做数据的分享交易集市,在搭建数据的流通、收集和分享的底层架构。十分远大的理想,还需假以时日。百度是研究与实践结合,除了百度指数、百度沸点、百度统计、百度迁徙等成功案例之外,李彦宏去年向政治局常委讲解大数据,对百度的大数据能力也是一种肯定。
互联网是冰山一角,大数据更多在BAT之外
央视数据新闻的应用取得成功,值得肯定。但大数据的价值远不止此,它可以支持媒体收集民意,反馈真实世界,它可以帮助BAT开拓新的业务和尝试新的研究。但数据更大的想象空间则是其与政府数据结合,与行业数据结合。大数据在BAT之外。
移动互联网,设备数量爆发式增长。而4G来临,移动互联网的网络瓶颈被突破之后,包括物联网、可穿戴设备、车联网、智能医疗、智能家居等在内的智能硬件产业行将爆发,这些设备将源源不断地产生、收集、回传数据到云端。目前爆发的大数据只能算核弹级别,真正的大数据爆发会是氢弹级别的规模。
在经济方面,移动支付确保了及时、细粒度和全面的交易数据收集,进而可以对经济进行更加准确、有说服力、有时效性的监测。这会影响什么呢?CPI、GDP统计可以细化到分钟,可以进行预警管控。各个行业的交易额、市场份额数据也可自动化统计,而不再是调研公司抽样完成,后者说服力不够。
在教育方面,互联网教育收集更丰富的教育数据。可以进行师资力量的调配,可以针对学习情况对课程进行改进优化,可以基于学生学习的跟踪进行教育研究。
在金融方面,有股市股价预测、存款波动监控、基于保险理赔的大数据分析推出新产品;在工业方面,可以根据市场消费、口碑的大数据了解不同地域、不同性别、不同人群的消费行为特征进行精准营销甚至反向定制。在通信方面,可以根据人群流动情况、话务情况的历史规律动态自动调配基站载波进行节能管理。
地方政府如果能积极开放数据,例如一些信息查询连接到App,则可以提高办事效率和群众满意度;如果能积极利用数据,基于交通大数据进行城市规划、道路规划、红绿灯规划缓解拥堵,基于流感趋势预测进行疾病预警控制,基于用户搜索情况了解本地民意、关注点、舆情等,这比一些官员微服私访收集民意效率更高。
在新闻报道上的大数据应用,是互联网表达民意的一大社会进步,这还远远不够,从春节到两会,大数据是先锋派的新闻界在用,一些大数据先行者例如百度发挥得还不算多,用它的也不多,大都是浅尝辄止。各个行业都应该多利用大数据帮助科学决策。
大数据在经济、社会、民生等领域都大有可为。它不再是云里雾里,不再是纸上谈兵,不再是巨头的游戏,而是落到实处,不断圈入新玩家,探索新模式,创造新价值。虽然大数据在各行各业都存在且具备应用价值,但技术+数据驱动的互联网行业才是排头兵。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
数据分析师认证考试全面升级后,除了考试场次和报名时间,小伙伴们最关心的就是报名费了,报 ...
2025-12-23CDA中国官网是全国统一的数据分析师认证报名网站,由认证考试委员会与持证人会员、企业会员以及行业知名第三方机构共同合作,致 ...
2025-12-23在Power BI数据可视化分析中,矩阵是多维度数据汇总的核心工具,而“动态计算平均值”则是矩阵分析的高频需求——无论是按类别计 ...
2025-12-23在SQL数据分析场景中,“日期转期间”是高频核心需求——无论是按日、周、月、季度还是年度统计数据,都需要将原始的日期/时间字 ...
2025-12-23在数据驱动决策的浪潮中,CDA(Certified Data Analyst)数据分析师的核心价值,早已超越“整理数据、输出报表”的基础层面,转 ...
2025-12-23在使用Excel数据透视表进行数据分析时,我们常需要在透视表旁添加备注列,用于标注数据背景、异常说明、业务解读等关键信息。但 ...
2025-12-22在MySQL数据库的性能优化体系中,索引是提升查询效率的“核心武器”——一个合理的索引能将百万级数据的查询耗时从秒级压缩至毫 ...
2025-12-22在数据量爆炸式增长的数字化时代,企业数据呈现“来源杂、格式多、价值不均”的特点,不少CDA(Certified Data Analyst)数据分 ...
2025-12-22在企业数据化运营体系中,同比、环比分析是洞察业务趋势、评估运营效果的核心手段。同比(与上年同期对比)可消除季节性波动影响 ...
2025-12-19在数字化时代,用户已成为企业竞争的核心资产,而“理解用户”则是激活这一资产的关键。用户行为分析系统(User Behavior Analys ...
2025-12-19在数字化转型的深水区,企业对数据价值的挖掘不再局限于零散的分析项目,而是转向“体系化运营”——数据治理体系作为保障数据全 ...
2025-12-19在数据科学的工具箱中,析因分析(Factor Analysis, FA)、聚类分析(Clustering Analysis)与主成分分析(Principal Component ...
2025-12-18自2017年《Attention Is All You Need》一文问世以来,Transformer模型凭借自注意力机制的强大建模能力,在NLP、CV、语音等领域 ...
2025-12-18在CDA(Certified Data Analyst)数据分析师的时间序列分析工作中,常面临这样的困惑:某电商平台月度销售额增长20%,但增长是来 ...
2025-12-18在机器学习实践中,“超小数据集”(通常指样本量从几十到几百,远小于模型参数规模)是绕不开的场景——医疗领域的罕见病数据、 ...
2025-12-17数据仓库作为企业决策分析的“数据中枢”,其价值完全依赖于数据质量——若输入的是缺失、重复、不一致的“脏数据”,后续的建模 ...
2025-12-17在CDA(Certified Data Analyst)数据分析师的日常工作中,“随时间变化的数据”无处不在——零售企业的每日销售额、互联网平台 ...
2025-12-17在休闲游戏的运营体系中,次日留存率是当之无愧的“生死线”——它不仅是衡量产品核心吸引力的首个关键指标,更直接决定了后续LT ...
2025-12-16在数字化转型浪潮中,“以用户为中心”已成为企业的核心经营理念,而用户画像则是企业洞察用户、精准决策的“核心工具”。然而, ...
2025-12-16在零售行业从“流量争夺”转向“价值深耕”的演进中,塔吉特百货(Target)以两场标志性实践树立了行业标杆——2000年后的孕妇精 ...
2025-12-15