京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据到底有何用?看百度专家如何说
在硬件不挣钱服务挣钱的思想影响下,企业尤其是创业企业越来越重视大数据,企图最后利用大数据挣钱,然而,大数据是一个高高在上的存在,大多企业所做的,仅仅只是收集数据而以,至于后续怎么运用?其实至今还没有一个明确的可复制模式。近日,百度资深数据专家吴海山分享了百度LBS大数据的运用,或许能够对大家有所启发。
以下内容根据吴海山演讲有所更改,未改变原意。
百度大数据从何而来
百度研究院分为大数据实验室、深度学习实验室和美国硅谷的人工智能实验室。大数据实验室,主要利用百度各个行业的数据分析用户的画像,为用户提供解决方案。

百度作为国内最大的搜索引擎公司,旗下产品众多,为其提供了大量数据:
1、每天的移动地图搜索请求上亿
2、百度移动互联网的搜索比重越来越高,如今每天有近30亿次移动互联网搜索
3、依靠百度地图等相关应用,百度每天可获得接近6亿用户超过250亿次的定位需求
4、累计有定位轨迹的用户,安卓16亿,IOS1.2亿
据称借助GPS、基站、Wi-Fi和传感器信息,百度地图的整体定位精度为50m,其中GPS定位精度达10m,WIFI与基站定位的精度为27m。

以上为2015年除夕,不加任何地图元素,仅仅依靠百度地图的定位数据所展现的上海外滩结果,路的形状完全被数据刻划出来,这也从另一方面体现了百度定位数据的巨大。
分析用户画像
大数据的重要作用就是,根据这些数据结合网络上的搜索数据,可以对用户做非常详细的画像:

比如说在家装领域,根据这些数据,可以知道用户最近有没有装修的需求。同时还可以发现其中一些有意思的特征:男性居多,可能有比较强的购买力,女性仅占24%。而30到39岁人群是家装需求的主要人群,他们的购买能力最强,其次是29岁以下的结婚人群等。

这些用户直接关注哪些信息呢?对百度的搜索词进行文本分析,用机器学习和数据挖掘的方法可以发现大部分人很关心装修效果,这是现在很多年轻人比较关心的点,接下来是客厅、户型、背景、面积大小。
大数据还可以了解个人需求
大数据可以了解每个人不同的需求,下图是五一当天北京游客的分布,一类是安卓手机用户,还有一类是苹果手机游客,这些游客的分布,呈现了非常有意思的差异。其中苹果手机用户主要的游玩地点是王府井等地,而安卓手机用户则是天安门等。同样的,外地人与本地人的差异也有造成了同样的规律,外地人主要游玩天安门等名胜。

因此,通过了解用户的居住地以及使用手机型号等大数据信息,是可以在一定程度上预测用户需求的,甚至还可以预测用户的行为轨迹。比如下图中蓝色的线代表用户线下的行为,根据这些用机器学习的方法建模,可以预测用户下一步做什么,即红线。

大数据选址
现在包括齐家网在内的众多企业都在做线下O2O的体验店,应该放在什么位置,在什么地方开体验店能更吸引潜在客户?

这个图反映的是用户去星巴克与海底捞的差异。星巴克用户周一到周五去的频率比较高,去海底捞周末频率比较高。包括大家在每一天的时间,对于像星巴克,大家下午三四点去的概率最高,去海底捞大家下午六点到九点去的频率比较高。对于地点的需求也不一样,用户宁可走远一点去选一个更合适的海底捞,而对于星巴克,他们更愿意选择近的地方。
为此,根据用户定位搜索,其实也可以为商家做选址的方案。

现在若想选一个新的位置,应该选在什么地方呢?首先看一下最近有需求的用户分布在什么地方,上图中黑色代表现有线下的体验店,把现有的线下体验店,比如说每一个体验店能够满足周边一两公里用户的需求,我把满足需求去掉,之后可以发现还有哪些地方人有很强的需求,但是他在周边找不到体验店,在这个地方开体验店成功的概率是比较高的。

另外一个应用,百度数据还可以反应空间上经济形态的分布。来看全国iPhone6的分布,通过做了分析,可以看见省级的GDP和省iPhone6的分布是高度相关的,比较不相关的地方是北京、上海、深圳,我们发现这几个地方用户的行为更加复杂,用户的消费和其他地方的差异可能更大一些。 这对企业拓展市场有一定的指导意义。
房产空置率分析
我们还可以用百度迁徙数据来看中国城市的发展,比如说可以看到周边城市群的发展。
通过百度数据也可以看中国住宅区的空置率到底是什么样的,中国有很多城市叫所谓的鬼城。但到底哪些区域的楼盘空置率比较高,哪些地方的楼盘空置率没有那么高。
通过定位数据分析用户的工作地、居住地,再分析用户居住楼盘的信息,根据网上的数据和百度结果看这个楼盘,知道这个楼盘的容积率、建筑时间,根据这样一个结果可以检测出来全国范围内地产行业的住宅空置率。
我们发现像三亚、威海,这些地方不应该是鬼城,他们在节假日的时候人口峰值涨的很高,但这是典型的季节性的旅游城市,它和美国的迈阿密和新泽西是一样的。这些城市的房地产行业并没有想象的那么严重。
另外,之前被媒体报道比较多的河南郑州新区。根据数据我们发现,这个地方的经济现在已经好转很多了,越来越多的年轻人搬到郑州新区去住,这个已经是复苏非常好的城市,这个地方的地产行业已经比较景气。

地产行业的发展,更重要的指标是应该是净增人口的变化。如果这个城市的楼盘比较多,但是人口还是在下降,那这便是比较危险的信号。如果说这个城市虽然有一定的存量楼盘,但是这个城市整体人口是上升的,我们认为这个城市在地产、家装家居方面还有很大的空间。
智慧城市管理
另外,通过百度数据来做智慧城市的管理也是比较可行的。

上图是通过百度大数据做的研究,基于上海外滩的踩踏事件,事后根据百度的数据做的研究,可以发现百度地图数据可以很好的预测将来人口流动的趋势。根据这样的结果可以提供一些方案,帮助政府能够做人群的实时监控和预警方案。人群流量数据与地点搜索数据高度相关,其背后的因果关系在于:人们先搜索地点,进行规划,然后到达。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在用户行为分析实践中,很多从业者会陷入一个核心误区:过度关注“当前数据的分析结果”,却忽视了结果的“泛化能力”——即分析 ...
2026-03-13在数字经济时代,用户的每一次点击、浏览、停留、转化,都在传递着真实的需求信号。用户行为分析,本质上是通过收集、整理、挖掘 ...
2026-03-13在金融、零售、互联网等数据密集型行业,量化策略已成为企业挖掘商业价值、提升决策效率、控制经营风险的核心工具。而CDA(Certi ...
2026-03-13在机器学习建模体系中,随机森林作为集成学习的经典算法,凭借高精度、抗过拟合、适配多场景、可解释性强的核心优势,成为分类、 ...
2026-03-12在机器学习建模过程中,“哪些特征对预测结果影响最大?”“如何筛选核心特征、剔除冗余信息?”是从业者最常面临的核心问题。随 ...
2026-03-12在数字化转型深度渗透的今天,企业管理已从“经验驱动”全面转向“数据驱动”,数据思维成为企业高质量发展的核心竞争力,而CDA ...
2026-03-12在数字经济飞速发展的今天,数据分析已从“辅助工具”升级为“核心竞争力”,渗透到商业、科技、民生、金融等各个领域。无论是全 ...
2026-03-11上市公司财务报表是反映企业经营状况、盈利能力、偿债能力的核心数据载体,是投资者决策、研究者分析、从业者复盘的重要依据。16 ...
2026-03-11数字化浪潮下,数据已成为企业生存发展的核心资产,而数据思维,正是CDA(Certified Data Analyst)数据分析师解锁数据价值、赋 ...
2026-03-11线性回归是数据分析中最常用的预测与关联分析方法,广泛应用于销售额预测、风险评估、趋势分析等场景(如前文销售额预测中的多元 ...
2026-03-10在SQL Server安装与配置的实操中,“服务名无效”是最令初学者头疼的高频问题之一。无论是在命令行执行net start启动服务、通过S ...
2026-03-10在数据驱动业务的当下,CDA(Certified Data Analyst)数据分析师的核心价值,不仅在于解读数据,更在于搭建一套科学、可落地的 ...
2026-03-10在企业经营决策中,销售额预测是核心环节之一——无论是库存备货、营销预算制定、产能规划,还是战略布局,都需要基于精准的销售 ...
2026-03-09金融数据分析的核心价值,是通过挖掘数据规律、识别风险、捕捉机会,为投资决策、风险控制、业务优化提供精准支撑——而这一切的 ...
2026-03-09在数据驱动决策的时代,CDA(Certified Data Analyst)数据分析师的核心工作,是通过数据解读业务、支撑决策,而指标与指标体系 ...
2026-03-09在数据处理的全流程中,数据呈现与数据分析是两个紧密关联却截然不同的核心环节。无论是科研数据整理、企业业务复盘,还是日常数 ...
2026-03-06在数据分析、数据预处理场景中,dat文件是一种常见的二进制或文本格式数据文件,广泛应用于科研数据、工程数据、传感器数据等领 ...
2026-03-06在数据驱动决策的时代,CDA(Certified Data Analyst)数据分析师的核心价值,早已超越单纯的数据清洗与统计分析,而是通过数据 ...
2026-03-06在教学管理、培训数据统计、课程体系搭建等场景中,经常需要对课时数据进行排序并实现累加计算——比如,按课程章节排序,累加各 ...
2026-03-05在数据分析场景中,环比是衡量数据短期波动的核心指标——它通过对比“当前周期与上一个相邻周期”的数据,直观反映指标的月度、 ...
2026-03-05