京公网安备 11010802034615号
经营许可证编号:京B2-20210330
BAT大数据野心:数据生产全链条浮现
以BAT为代表的中国互联网企业,在数据领域各有千秋,百度的搜索数据、阿里的电商数据、腾讯的社交数据。对于手里的数据如何使用,这些公司正在尝试数据采集、计算引擎、数据加工、数据分析、机器学习、数据应用等数据生产全链条。
谁拥有中国最多的数据,答案是80%以上的数据都掌握在政府手里;那么谁是中国最大的大数据企业,是BAT中的某一家,还是银行、通信运营商、制造工厂……
6月份,腾讯发布了一份用大数据描绘的中国数字经济地图。这份覆盖335个城市的《中国“互联网+指数”(2016)报告》的发布,吸引了千余名中国政府官员到场。除了区域数字经济排名,在大数据行业人士看来,此次发布会也是腾讯系大数据图谱的首次集中亮相。
以BAT为代表的中国互联网企业,在数据领域各有千秋,百度的搜索数据、阿里的电商数据、腾讯的社交数据,即便放到世界范围内来看,其规模都不容小觑。
对于手里的大数据如何使用?马化腾和李彦宏都提到“人工智能”,李彦宏称大数据将开启人工智能时代。马云则公开表示,阿里要做的是数据公司。至于如何用数据挣钱,现在他也不知道。
腾讯系图谱
腾讯发布的2016年中国“互联网+指数”,使用的数据规模惊人。
腾讯研究院首席经济学家孟昭莉介绍,此次“互联网+”指数使用的是真正意义上的大数据。腾讯研究院汇总了微信、手Q和公众号超过20万亿次的阅读点击量、数百亿笔支付数据、全年约1300亿次视频点击量;70亿次新闻点击量、微信城市服务超1.2亿人次应用数据、遍布全国的一万余个有效创业项目、四十余万款上线APP数据等。
这些数据总量,超过73500000 GB,相当于800个世界最大图书馆——美国国会图书馆藏书的容量,最终从海量数据中得到121个指标数据集。
参与报告撰写的腾讯研究院研究人员告诉21世纪经济报道记者,2016年的最新报告,相对去年的报告数据量更大,覆盖面更广泛,包括了腾讯在前两年投资过的京东电商数据、携程的旅游交通数据,还有滴滴的交通数据等。
在操作层面,除了腾讯的内部数据,还由马化腾亲自出面,“收集”京东、滴滴、携程、新美大的数据。
其中,京东大数据研究院扫描超过20亿行、总量25 TB的数据,得到3个指标数据集,滴滴研究院汇总2015年全年订单得到2个指标数据集,携程汇总数亿用户的订单数据得到4个指标数据集,新美大汇集数亿活跃买家、数千万商户得到5个指标数据集。
上述报告中的数据,只是腾讯数据的一部分。
在今年5月的数博会上,马化腾透露,腾讯有18年海量运营数据,目前整个数据存储中心存储总量超过1000个PB,大于15000个全世界最大图书馆的总量,而且每天以500TB的数据量上升。
在图片、视频以及移动支付方面,数据数量也非常惊人。除夕时,微信红包数量每天超过25亿笔,目前也稳定到每天超过5亿笔的数字。
人民大学长期研究网络经济学的副教授程华评价,这些数据不仅对企业自身发展,对于中国数字经济发展都很有意义。
在大数据领域的创业公司看来,这些社交、电商以及交通数据,将在行业发挥重要作用。21世纪经济报道记者采访期间,不止一家数据公司提到,希望能跟像腾讯这样的大数据公司有合作渠道。
大数据生态圈
无疑,大数据正在成为企业的核心资产之一。
报告发布当天,除了马化腾,还有贡献数据的京东集团CEO刘强东、大众点评网CEO王兴和58同城CEO姚劲波等,来现场的还有携程、滴滴等互联网企业高管,同时为腾讯系大数据图谱站台。
这些企业的数据,基本覆盖了交通、旅游、餐饮、零售等第三产业的方方面面。这些公司背后都有腾讯直接或者间接的投资。
在腾讯的内部研讨会上,腾讯一位高管介绍,大家都在喊数据开放,法律意义上的数据开放,是指政府数据开放,任何一家商业企业没有义务开放自己的数据。
对于这份报告,他表示,腾讯今年算是找到了一个方法,在不拿投资公司原始数据的情况下,以百分比的方式,构建一个指数。
21世纪经济报道记者梳理发现,包括腾讯投资的公司在内,整个腾讯系的大数据版图,其布局的广度和深度,已属国内企业的佼佼者。其布局已经到了全面完善生态圈的对外合作阶段。
贵阳数博会上,马化腾阐述了腾讯大数据生态圈思路:“出行领域的滴滴打车,每天有超过上千万单的出行记录,数百万车辆实时把地理位置信息和我们的平台一起汇集;再比如京东有数万名送货员,每天有大量的货物在流转,会产生很多实时数据,甚至精准到家庭地址;像O2O领域,美团有数百万家商户和送餐服务的地理位置信息。”
马化腾表示,这些信息掌握在整个生态领域的各个伙伴手里,希望汇总起来反哺给合作伙伴。
以58集团加入腾讯的生态圈为例,58集团CEO姚劲波谈到“58和腾讯的连接”时说,第一层意义是,平台用户量越大就越好用,交易的频次,达成匹配的效率就会变高,他们希望更多地进入到QQ、微信里,让用户在更大的平台,以更高的效率完成交易;另外,一旦商户与用户能在线实时沟通的话,服务的本质也会发生变化,会让双方的体验进一步提升。
企业之间的大数据合作和共享,在近两年的资产市场动作不断,吸足了眼球。
今年6月份,跟大数据相关的最大一笔交易,是微软以262亿美元的价格收购领英,也是微软历史上数额最大的收购交易。领英聚焦职业社交网络的大数据资源,被认为具有丰富的商业价值。
数据生产全链条
对于微软天价收购领英,中关村一家大数据公司CEO告诉21世纪经济报道记者,很大的可能,就是LinkedIn提供的社交数据,对微软未来的布局很有用。
大数据如何实现商业价值变现,下一个风口是什么?北京几乎每天都在举行讨论这些话题的论坛。BAT大佬关于“风口”判断的演讲,对很多人来说,总有着魔性一般的吸引力。
互联网的数据价值几何?怎么商业化变现?马化腾如此总结下一个风口——未来是传统行业利用互联网技术,在云端用人工智能的方式,处理大数据。
听众听完这句汇总当下最热概念的句子,似乎也没有太听明白。不过,互联网企业的大数据被看好,是毫无疑问的。
从国内备受瞩目的BAT大数据布局来看,各家的大数据各有特点。腾讯有QQ和微信两张王牌,拥有世界上最庞大的社交数据。他们的数据吸引了研究机构、创业公司的目光。
马化腾和张小龙均在公开场合表示,用户在微信上花掉了太多的时间。不得不说的是,微信的社交数据超过了任何一款互联网产品,而在整个腾讯生态中,关于地理信息、交通、医疗、体育、电商数据,几乎全面覆盖。
百度以搜索数据为主,作为一家占据中国搜索市场绝对份额的公司,自然汇集了海量的数据。
2014年8月开始,百度推出基于大数据的经济指数预测产品——百度经济指数,一个是中小企业景气指数,一个是宏观经济指数预测。同时,在数据商业化方面,李彦宏认为,人工智能是最能应用大数据的领域,大数据将开启人工智能时代。
“为什么人工智能这么火,主要是因为越来越多的大数据被重视与运用,计算能力越来越强大,计算的成本越来越低,大数据的应用就越有实现的价值。”李彦宏在今年的贵阳数博会上说。
最早提出“DT时代”的阿里巴巴,拥有强大的电商数据。马云在多个场合强调,阿里巴巴是一家数据公司,卖东西是为了获取数据。
阿里研究院针对自身数据,也早就推出各类指数报告。阿里庞大的电商数据,已经成为各大研究机构、咨询机构、金融机构以及政府部门关注的重要参考。
阿里研究院高级专家潘永花告诉21世纪经济报道记者,针对清洗后的电商数据,阿里研究院做了系列的研究产品,有一部分会公开和定期发布。
比如其公开发布的产品,包括阿里巴巴网购价格指数与核心商品价格指数。
前者反映网购平台上支出平均价格水平变化,后者反映网购主流商品的一般物价水平变化。阿里巴巴网购核心商品价格指数从2014年6月9日开始按月发布,已成为宏观经济以及主流商品价格变化的重要参考。
另外,阿里还根据这些数据产生出不少新的业务,比如阿里巴巴商家事业部今年发布了聚星台,其核心就是用数据赋能商家,帮助商家更高效地实现品牌客户运营。
潘永花介绍,阿里巴巴的大数据能力除了赋能原有的电商生态外,2016年他们通过“数加”大数据平台正式对外输出,涵盖了数据采集、计算引擎、数据加工、数据分析、机器学习、数据应用等数据生产全链条。
马云在公开场合表示,我们也不知道如何用数据挣钱,但我们知道人们的生活将离不开数据。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
【核心关键词】贷款、报表、课程、专业、建模、缺失值、营销、互联网、银行、办公自动化、数据分析、数据预处理、特征工程、贷 ...
2026-06-05在数据库数据查询、业务报表统计、多表关联分析中,LEFT JOIN左连接是使用率最高的SQL关联查询语句。其核心特性是保留左表全部数 ...
2026-06-05 很多数据分析师能熟练地写SQL、做透视表、算描述性统计,但当被问到“如何预测用户流失概率”“如何归因销量下滑的关键因素 ...
2026-06-05任何一款产品从诞生、普及到最终退出市场,都会遵循一套固定的发展规律,这就是产品生命周期理论。在市场竞争日益激烈、产品迭代 ...
2026-06-04在Excel数据分析、办公统计、业务报表制作场景中,数据透视表是数据汇总、分类统计、快速复盘的核心工具,能够高效完成海量原始 ...
2026-06-04 很多数据分析师拿到数据就开始清洗、建模,但当被问到“这批数据属于什么类型——结构化还是非结构化?分类变量还是数值变量 ...
2026-06-04在问卷调查与社会科学数据分析中,卡方检验是最常用、最基础的非参数检验方法,广泛应用于市场调研、用户分析、行为统计、满意度 ...
2026-06-03【核心关键词】贷款、报表、课程、专业、建模、缺失值、营销、互联网、银行、办公自动化、数据分析、数据预处理、特征工程、贷 ...
2026-06-03 很多数据分析师画过趋势图、做过业绩预测,但当被问到“这个月销售额增长20%,到底是长期趋势自然增长,还是促销活动的短期 ...
2026-06-03逻辑回归是数据分析、机器学习、统计建模中应用最广泛的二分类预测模型,常用于风险判断、行为预测、归因分析等场景。在SPSS、Py ...
2026-06-02数字经济时代,市场竞争日趋同质化,用户消费需求愈发个性化、多元化,传统依托经验、粗放式、广撒网的营销模式弊端日益凸显。长 ...
2026-06-02 很多数据分析师做过按月份的销售额趋势图,画过按天的流量折线图,但当被问到“时间序列和普通数据有什么本质区别”“季节性 ...
2026-06-02在市场竞争日趋饱和、用户需求不断细分的当下,企业创业创新、产品迭代与市场拓展不再依赖经验决策,而是需要系统化、工具化的商 ...
2026-06-01【核心关键词】调度、岗位、数据库、企业、报表、培训、程序、数据分析、数据加工、业务部门、企业数据、调度工具、业务指标、 ...
2026-06-01 很多数据分析师能熟练地计算指标、搭建标签体系,但当被问到“画像到底在解决什么问题”“画像和标签是什么关系”“画像如何 ...
2026-06-01在数据统计分析、数据清洗、异常值识别与数据分布研究中,箱型图是最直观、高效、专业的可视化分析工具。相较于柱状图、折线图仅 ...
2026-05-29Tkinter是Python内置的标准GUI图形界面库,具备无需额外安装、调用简单、兼容性强、轻量化高效等优势,是Python快速开发桌面小程 ...
2026-05-29 很多分析师在设计标签时思路清晰,但真到落地环节却面临“数据在手,不知如何转化为可用标签”的困境:或因加工方式选择不当 ...
2026-05-29【核心关键词】大数据、经理、专业、金融、客户、传统、建模、数据产品、互联网金融、产品经理、数据分析、金融行业、数据模型 ...
2026-05-28 很多分析师每天和数据打交道,但当被问到“标签是什么”“标签和指标有什么区别”“标签体系如何设计”时,却常常答不上来。 ...
2026-05-28