京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据告诉你,为什么你的下一代将被迫逃离家乡
逃离你终将衰落的家乡一年一度的毕业季如期而至.许多学长学姐在毕业找工作的这段日子里都会问我一个问题:我是应该留在上海呢,还是回家乡呢?但往往还没等我开始回答,他们自己就先开始分
逃离你终将衰落的家乡
一年一度的毕业季如期而至。许多学长学姐在毕业找工作的这段日子里都会问我一个问题:我是应该留在上海呢,还是回家乡呢?
但往往还没等我开始回答,他们自己就先开始分析了:上海的工作机会多,但是压力大;家乡工作可能比较无聊,但是可能比较轻松,离父母近,也方便。但男朋友/女朋友怎么办,要换一个么。诸如此类。BlaBla。听完一个小时的絮叨之后,他们终于会问:那么,你怎么看呢?
为了回馈他们的絮叨,我也决定开启絮叨模式,于是我说:要回答你这个问题,我需要讲一个比较长的故事,你有耐心听吗?
即使五年后的今天,我们回过头来看,2010年中国的人口年龄结构形势也都好得有点不太像话了。
为什么这么说?看图便知:
通过第六次人口普查数据可以看到:2010年,虽然我国各省级单元(省、自治区、直辖市)劳动年龄人口(可以简单地理解为劳动力)的总量各异,但其劳动年龄人口比例都处于60%~80%的区间(除贵州以外)。像北京上海天津这种直辖市,其比例甚至达到70%~80%的区间。
换句话说,全国劳动力充沛到令人发指的程度。
横向对比一下,即使是全球一线城市,伦敦纽约东京,他们的人口年龄结构预期也不过就是在这个区间而已。如下图所示:
但即使在这么一片形势大好的情况下,我们还总是偶尔能听到一些人口或经济学家在时不时发出忧患的感叹声。他们在担心什么呢?
他们担心一个数,叫做总和生育率,而六普统计指出,中国的总和生育率仅为1.18,这是一个远低于代际更替的值(大约要在2.1以上才能实现代际更替)。
低了怕什么,开放二胎好了,甚至未来开放生育限制,难道还怕人不够么?中国人不是很能生吗?
呵呵。事实远非如此。在提高生育率这个问题上,许多学者均做出了不同结(li)果(chang)的判断。比如计生委信誓旦旦地说只要放开二胎,我国生育率就会蹭蹭蹭地提高1.5倍,但有些专家认为你放开八胎也没用生育率最多也不过能提高1.06倍而已,众说纷纭争执不下。
在这个问题上我们不妨引用梁建章的研究看看。梁建章曾经对中国知网1990至2010年共211篇中国生育意愿(理想孩子数)的文章进行了整理,得出下表。
可以看到,从90年代到00年代,中国整体生育意愿是降低的,而城市居民的生育意愿更远远低于农村居民和外出务工人员。假如未来中国的生育率能够达到1.4至1.8的水平,倒也是一个不错的结果。然而,生育意愿并不能代表实际生育率,二者之间往往有着巨大的差异。在日本和韩国的调查中,生育意愿都超过2,但实际生育率却都不到1.4。根据上述数据,梁建章认为,在没有任何限制下,中国的自然生育率也不会超过1.7。
好吧,我们就假设计生委忽然duang地一声被解散,中国再无生育限制,那么在最好的情况下,全国的总和生育率能够提高到1.7(即2010年水平的1.44倍)。那么会看到怎样的结果呢?我们将1.7这个值放入到人口推算模型中(具体可参看《人口控制,开给上海的一剂毒药》一文),得出以下结果:
如图所示,即使生育率上调至1.7,但自2010年起,劳动年龄人口水平仍在一路下跌:
至2030年,全国劳动年龄人口将减少1亿人;
至2040年,全国劳动年龄人口将减少1.5亿人;
至2050年,建国100周年之际,全国劳动年龄人口也“仅仅”将下降2.5亿而已。差不多扣掉两个日本。
2.5亿劳动年龄人口,很多吗?
我堂堂天朝13亿人口,区区2.5亿的减少而已,算什么,正好帮助天朝解决了人口过剩问题嘛。连计生委也涨红了脸,掐指一算,问道:19%缩减而已,人口的事,算是危机么?
这个计算没错,2.5亿劳动力的净减少,对于13.3亿人口而言,貌似只是19%的缩减。但它背后还隐藏着年龄更迭的杠杆作用:
看上去只有19%的缩减,但实际上却使全国的劳动年龄人口占比缩水了27%,直接下降到51%的危险地带;同时相应地,老龄率也将从13.7%暴涨到31.3%。
这是毋庸置疑的人口危机。
幸运的是,中国是一个大国,因此人口的危机也并非均等地分布在所有的城市和地区当中。总有一些城市和地区能够逃出生天。
但不幸的是,这2.5亿劳动力缺口的黑锅,总是需要有人来背的。那么,到底是谁来背呢?
我们不妨先来看一下全国尺度的人口流动图。
从2005年到2010年各省流动人口规模上来看,在各自省内流动的人口比例占了全国人口流动总量的大头。大部分省级单元的省级流动比例均低于10%。也就是说,全国的人口流动性基本上被封闭在省一级的单元当中。而能够产生较大规模(大于10%)跨省人口流动,大概只有这六个地区:北京、上海、天津、浙江、广东、福建。
那么,这些地区在跨省的人口流动中又扮演什么样的角色呢?请看下图:
我们把省内流动数据剥离出去,只保留省级之间的人口迁移,从图中可以清楚地看出,北京、上海、天津、浙江、广东、福建,这六个省级单位的跨省人口流动,全部都是净流入。
是的,它们不生产人口,它们只是人口的抽水机。
而它们抽取的水源,则来自上图中排名靠后的那些省份:河南、安徽、四川、湖南、湖北、江西,等等。总体而言,抽水的省份远远少于被抽的,这是一个清晰的遵循幂率规律的世界。
我们可以在空间上清楚地看到这两者之间的差异。请看下图:
从上图中可以清楚地看到,大半个中国的人口,以省为单位来观察的话,全都在净流出,而少数净流入的地区,则集中分布在东南沿海和北京天津两地。
因此,到底是由谁来背未来的2.5亿劳动力缺口的黑锅呢?
我不知道。但我知道的是,这有可能是上图中偏黄色的任何一个地区。
2050年,2.5亿劳动力的净减少,下跌至51%的劳动年龄人口占比,以及高达31%的老龄化率。 35年后留给中国的并不是一个美好的未来。毫无疑问,“衰落”与“收缩”,将取代“发展”与“建设”,成为未来的我们和我们下一代更为熟悉的词汇。
客观地说,在中国无法做到像美国一样以优质和稳定的移民来确保自身整体人口结构合理性的情况下,有些地区就必然会衰落,或者是乡村,或者是城市。就像今天的日本一样。全日本人口都在减少,无数村庄城镇衰亡凋败,但只有东京和大阪都市圈依然挺立。
在人口负增长的时代,大都市将毫不留情地吸干周边地区的血液,以便自己能够生存。残酷吗?不,因为这是年轻劳动力自己用脚投出的结果。
未来的中国也一样。
最后,为了更清晰地看到未来,我们可以简单设计这样一组计算:
假如,北京、上海、广州三个一线城市的劳动力总量(比例就不提了,结果不敢拿出来给大家看)在2050年时仍然能够维持2010年的水平。
那么,这三个城市需要从哪些省份抽取多少劳动力资源才够呢?
完成这个计算一共需要四步:
第一步,先取出这三个城市净流入人口的来源进行分析,请看下图:

第二步,综合这三个城市的外来人口来源地的比例分布,计算后选择了前十名的省份,确定为“北上广”的劳动力补给省,请看下图:
第三步,计算“北上广”至2050年的劳动年龄人口缺口。我们假设这三个一线城市从2010年至2050年都不再有移民进入,那么其劳动力的缺口如下图所示:
第四步,将这三个城市的2050年劳动力缺口值按照比例分配到”供给省“,并且推算“供给省”在2050年的人口自然变化值,将这两个值叠加起来,即可看到在“北上广”抽满之后这些“供给省”所剩下的“血量”。请看下图:
当然,这只是这些省份被北上广抽血后的情景。其实这些省份本身也有不少抽血大省,比如江苏。它虽然被上海抽掉不少,但是它还能从临近的安徽河南等地补回来一些。总体而言,假如考虑全国情况,这张图里有些省份的血量会变得更低。
写在最后的话:
现在的年轻人总是在犹豫。究竟是要回归生活惬意的小城镇家乡,还是奔赴大城市或者“北上广”辛苦打拼开拓人生。包括我的同学朋友,也会问我这样的问题。
这是每个人自己需要去做的选择,我们无法干预。
但我想对他们说的是:
你还能在这些选择中犹豫,说明你无比幸福,因为你们的下一代和下下一代可能不会再有任何选择的机会。假如你最终选择留在了一个生活安逸风景如画的小城镇上,你也许会幸福地过完一生;但在你的子女到了你这个年纪的时候,很可能他们有且只有一个选择,那就是——逃离他们终将衰落的家乡。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在统计学分析、实验研究、业务数据复盘过程中,单因素方差分析是检验自变量对因变量是否存在显著影响的核心方法。其中,两个水平 ...
2026-05-26【核心关键词】算法、客户、大数据、互联网、调优、建模、模型优化、机器学习、评分卡模型、模型开发、智能风控、业务场景、数 ...
2026-05-26 很多数据分析师写过无数个 SELECT,但当被问到“新建一张表,该如何定义字段类型来保证数据质量”“创建视图和存储物理表有 ...
2026-05-26在数据清洗、统计分析与数据质量检测工作中,箱型图(又称箱线图、Box Plot)是最直观、最高效的可视化分析工具之一。相较于柱状 ...
2026-05-25在大数据分析、数据清洗、质量管控、风险监测等领域,异常数据识别是保障数据质量、确保分析结论精准、规避业务决策失误的核心基 ...
2026-05-25 很多数据分析师精通Excel函数和透视表,但当被问到“数据从哪里来”“表和视图有什么区别”“数据库管理系统和SQL是什么关系 ...
2026-05-25数字化经营时代,企业的市场竞争早已从经验决策转向数据决策。门店营收、用户转化、产品销量、成本损耗、存量资产等所有经营行为 ...
2026-05-22在MySQL数据库日常运维、业务数据校验、数据迁移与数据清洗场景中,自增主键ID的连续性校验是一项基础且关键的工作。MySQL的Auto ...
2026-05-22 很多企业团队并非缺乏指标,而是陷入“指标失控”:仪表盘上堆满实时跳动的数据,却无法回答“当前瓶颈在哪、下一步该做什么 ...
2026-05-22【核心关键词】大数据、可视化、存储、架构、客户、离线、产品、同步、实时、数据仓库、数据分析、数据可视化、存储数据、离线 ...
2026-05-21在电商流量红利消退、公域获客成本持续走高的当下,存量用户深度挖掘已成为店铺增收增效的核心抓手。相较于付费投放获取的陌生新 ...
2026-05-21 很多数据分析师每天盯着几十个指标,但当被问到“这套指标要支撑什么业务目标”“指标之间是什么逻辑关系”“业务变化时如何 ...
2026-05-21在数据驱动决策的时代,数据质量直接决定分析结果的可靠性与准确性,而异常值作为数据清洗中的核心痛点,往往会扭曲分析结论、误 ...
2026-05-20 很多数据分析师每天盯着GMV、DAU、转化率,但当被问到“哪些指标在所有行业都适用”“哪些指标只对电商有意义”“二者如何搭 ...
2026-05-20Agent的能力边界,很大程度上取决于其掌握的Skill质量和数量。传统做法是靠人工编写和维护Skill,但这条路很快会遇到瓶颈。业务 ...
2026-05-20在统计分析中,方差分析(ANOVA)是一种常用的假设检验方法,核心用于分析“一个或多个自变量对单个因变量的影响”,广泛应用于 ...
2026-05-19 很多数据分析师每天盯着GMV、DAU、转化率,但当被问到“什么是指标”“指标和维度有什么区别”“如何定义指标值的计算规则和 ...
2026-05-19想高效备考 CDA 一级,拒绝盲目刷题、冗余学习?《CDA 一级教材知识手册》重磅来袭!以官方教材为核心,浓缩 13 章 103 个核心考 ...
2026-05-19在数据统计分析中,卡方检验是一种常用的非参数检验方法,核心用于判断两个或多个分类变量之间是否存在显著关联,广泛应用于市场 ...
2026-05-18在企业数字化转型的浪潮中,很多企业陷入了“技术堆砌”的误区——上线了ERP、CRM、BI等各类系统,积累了海量数据,却依然面临“ ...
2026-05-18