京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据到底有何用?看百度专家如何说
在硬件不挣钱服务挣钱的思想影响下,企业尤其是创业企业越来越重视大数据,企图最后利用大数据挣钱,然而,大数据是一个高高在上的存在,大多企业所做的,仅仅只是收集数据而以,至于后续怎么运用?其实至今还没有一个明确的可复制模式。近日,百度资深数据专家吴海山分享了百度LBS大数据的运用,或许能够对大家有所启发。
以下内容根据吴海山演讲有所更改,未改变原意。
百度大数据从何而来
百度研究院分为大数据实验室、深度学习实验室和美国硅谷的人工智能实验室。大数据实验室,主要利用百度各个行业的数据分析用户的画像,为用户提供解决方案。

百度作为国内最大的搜索引擎公司,旗下产品众多,为其提供了大量数据:
1、每天的移动地图搜索请求上亿
2、百度移动互联网的搜索比重越来越高,如今每天有近30亿次移动互联网搜索
3、依靠百度地图等相关应用,百度每天可获得接近6亿用户超过250亿次的定位需求
4、累计有定位轨迹的用户,安卓16亿,IOS1.2亿
据称借助GPS、基站、Wi-Fi和传感器信息,百度地图的整体定位精度为50m,其中GPS定位精度达10m,WIFI与基站定位的精度为27m。

以上为2015年除夕,不加任何地图元素,仅仅依靠百度地图的定位数据所展现的上海外滩结果,路的形状完全被数据刻划出来,这也从另一方面体现了百度定位数据的巨大。
分析用户画像
大数据的重要作用就是,根据这些数据结合网络上的搜索数据,可以对用户做非常详细的画像:

比如说在家装领域,根据这些数据,可以知道用户最近有没有装修的需求。同时还可以发现其中一些有意思的特征:男性居多,可能有比较强的购买力,女性仅占24%。而30到39岁人群是家装需求的主要人群,他们的购买能力最强,其次是29岁以下的结婚人群等。

这些用户直接关注哪些信息呢?对百度的搜索词进行文本分析,用机器学习和数据挖掘的方法可以发现大部分人很关心装修效果,这是现在很多年轻人比较关心的点,接下来是客厅、户型、背景、面积大小。
大数据还可以了解个人需求
大数据可以了解每个人不同的需求,下图是五一当天北京游客的分布,一类是安卓手机用户,还有一类是苹果手机游客,这些游客的分布,呈现了非常有意思的差异。其中苹果手机用户主要的游玩地点是王府井等地,而安卓手机用户则是天安门等。同样的,外地人与本地人的差异也有造成了同样的规律,外地人主要游玩天安门等名胜。

因此,通过了解用户的居住地以及使用手机型号等大数据信息,是可以在一定程度上预测用户需求的,甚至还可以预测用户的行为轨迹。比如下图中蓝色的线代表用户线下的行为,根据这些用机器学习的方法建模,可以预测用户下一步做什么,即红线。

大数据选址
现在包括齐家网在内的众多企业都在做线下O2O的体验店,应该放在什么位置,在什么地方开体验店能更吸引潜在客户?

这个图反映的是用户去星巴克与海底捞的差异。星巴克用户周一到周五去的频率比较高,去海底捞周末频率比较高。包括大家在每一天的时间,对于像星巴克,大家下午三四点去的概率最高,去海底捞大家下午六点到九点去的频率比较高。对于地点的需求也不一样,用户宁可走远一点去选一个更合适的海底捞,而对于星巴克,他们更愿意选择近的地方。
为此,根据用户定位搜索,其实也可以为商家做选址的方案。

现在若想选一个新的位置,应该选在什么地方呢?首先看一下最近有需求的用户分布在什么地方,上图中黑色代表现有线下的体验店,把现有的线下体验店,比如说每一个体验店能够满足周边一两公里用户的需求,我把满足需求去掉,之后可以发现还有哪些地方人有很强的需求,但是他在周边找不到体验店,在这个地方开体验店成功的概率是比较高的。

另外一个应用,百度数据还可以反应空间上经济形态的分布。来看全国iPhone6的分布,通过做了分析,可以看见省级的GDP和省iPhone6的分布是高度相关的,比较不相关的地方是北京、上海、深圳,我们发现这几个地方用户的行为更加复杂,用户的消费和其他地方的差异可能更大一些。 这对企业拓展市场有一定的指导意义。
房产空置率分析
我们还可以用百度迁徙数据来看中国城市的发展,比如说可以看到周边城市群的发展。
通过百度数据也可以看中国住宅区的空置率到底是什么样的,中国有很多城市叫所谓的鬼城。但到底哪些区域的楼盘空置率比较高,哪些地方的楼盘空置率没有那么高。
通过定位数据分析用户的工作地、居住地,再分析用户居住楼盘的信息,根据网上的数据和百度结果看这个楼盘,知道这个楼盘的容积率、建筑时间,根据这样一个结果可以检测出来全国范围内地产行业的住宅空置率。
我们发现像三亚、威海,这些地方不应该是鬼城,他们在节假日的时候人口峰值涨的很高,但这是典型的季节性的旅游城市,它和美国的迈阿密和新泽西是一样的。这些城市的房地产行业并没有想象的那么严重。
另外,之前被媒体报道比较多的河南郑州新区。根据数据我们发现,这个地方的经济现在已经好转很多了,越来越多的年轻人搬到郑州新区去住,这个已经是复苏非常好的城市,这个地方的地产行业已经比较景气。

地产行业的发展,更重要的指标是应该是净增人口的变化。如果这个城市的楼盘比较多,但是人口还是在下降,那这便是比较危险的信号。如果说这个城市虽然有一定的存量楼盘,但是这个城市整体人口是上升的,我们认为这个城市在地产、家装家居方面还有很大的空间。
智慧城市管理
另外,通过百度数据来做智慧城市的管理也是比较可行的。

上图是通过百度大数据做的研究,基于上海外滩的踩踏事件,事后根据百度的数据做的研究,可以发现百度地图数据可以很好的预测将来人口流动的趋势。根据这样的结果可以提供一些方案,帮助政府能够做人群的实时监控和预警方案。人群流量数据与地点搜索数据高度相关,其背后的因果关系在于:人们先搜索地点,进行规划,然后到达。
CDA学员免费下载查看报告全文:2026全球数智化人才指数报告【CDA数据科学研究院】.pdf
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在中介效应分析中,人口统计学变量(如年龄、性别、学历、收入、职业等)是常见的控制变量或调节变量,其处理方式直接影响分析结 ...
2026-04-29在SQL数据库实操中,日期数据的存储与显示是高频需求,而“数字日期”(如20240520、20241231、45321)是很多开发者、数据分析师 ...
2026-04-29 很多分析师在设计标签时思路清晰,但真到落地环节却面临“数据在手,不知如何转化为可用标签”的困境:或因加工方式选择不当 ...
2026-04-29在手游行业竞争日趋白热化的当下,“流量为王”早已升级为“留存为王”,而付费用户留存率更是衡量一款手游盈利能力、运营质量的 ...
2026-04-28在日常MySQL数据库运维与开发中,经常会遇到“同一台服务器上,两个不同数据库(以下简称“源库”“目标库”)的表数据需要保持 ...
2026-04-28 很多分析师每天和数据打交道,但当被问到“标签是什么”“标签和指标有什么区别”“标签体系如何设计”时,却常常答不上来。 ...
2026-04-28箱线图(Box Plot)作为一种经典的数据可视化工具,广泛应用于统计学、数据分析、科研实证等领域,核心价值在于直观呈现数据的集 ...
2026-04-27实证分析是社会科学、自然科学、经济管理等领域开展研究的核心范式,其核心逻辑是通过对多维度数据的收集、分析与解读,揭示变量 ...
2026-04-27 很多数据分析师精通Excel函数和数据透视表,但当被问到“数据从哪里来”“表和视图有什么区别”“数据库管理系统和SQL是什么 ...
2026-04-27在大数据技术飞速迭代、数字营销竞争日趋激烈的今天,“精准触达、高效转化、成本可控”已成为企业营销的核心诉求。传统广告投放 ...
2026-04-24在游戏行业竞争白热化的当下,用户流失已成为制约游戏生命周期、影响营收增长的核心痛点。据行业报告显示,2024年移动游戏平均次 ...
2026-04-24 很多业务负责人开会常说“我们要数据驱动”,最后却变成“看哪张报表数据多就用哪个”,往往因为缺乏一套结构性的方法去搭建 ...
2026-04-24在Power BI数据可视化分析中,切片器是连接用户与数据的核心交互工具,其核心价值在于帮助使用者快速筛选目标数据、聚焦分析重点 ...
2026-04-23以数为据,以析促优——数据分析结果指导临床技术改进的实践路径 临床技术是医疗服务的核心载体,其水平直接决定患者诊疗效果、 ...
2026-04-23很多数据分析师每天盯着GMV、DAU、转化率,但当被问到“哪些指标是所有企业都需要的”“哪些指标是因行业而异的”“北极星指标和 ...
2026-04-23近日,由 CDA 数据科学研究院重磅发布的《2026 全球数智化人才指数报告》,被中国教育科学研究院官方账号正式收录, ...
2026-04-22在数字化时代,客户每一次点击、浏览、下单、咨询等行为,都在传递其潜在需求与决策倾向——这些按时间顺序串联的行为轨迹,构成 ...
2026-04-22数据是数据分析、建模与业务决策的核心基石,而“数据清洗”作为数据预处理的核心环节,是打通数据从“原始杂乱”到“干净可用” ...
2026-04-22 很多数据分析师每天盯着GMV、转化率、DAU等数字看,但当被问到“什么是指标”“指标和维度有什么区别”“如何搭建一套完整的 ...
2026-04-22在数据分析与业务决策中,数据并非静止不变的数值,而是始终处于动态波动之中——股市收盘价的每日涨跌、企业月度销售额的起伏、 ...
2026-04-21