京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据是否会让我们未来的医疗资源不再紧张
前不久,一定有很多人追踪过美国大选,这次大选的结果让人跌破眼镜,因为所有媒体在选前都认为希拉里会赢,都认为特朗普是弱势的一方,但结果却是迥然不同的。
其实早在三个月前,我们中国人手里就已经有了一些能够预示这个结果的数据。
阿里巴巴在大选前对美国总统候选人各自的粉丝购买的宣传品做了比较,红线就是特朗普的,他的粉丝买了帽子、面具、标语等等;蓝色的是希拉里,你会发现两组支持者的热情是不一样的。
在这届的美国大选中,只有55%的合法选民去投票,特朗普获胜的关键因素就是,支持他的人比支持希拉里的人更狂热,他们都去投票了。
阿里巴巴的数据在三个月之前就能看出端倪,最后果然是特朗普赢了,所以数据能告诉我们很多智慧。当今数据的量已经非常庞大,要按字节算的话,它已经超过了太阳系所有原子数目的总和,如果我们能够把这些大数据很好地运用起来,就能给我们非常多新的信息和知识。
这一张图是我们中国的数据,右边是百度地图显示的最近某年春运期间的人口迁徙方向,左边是该年春运第一天,十大人口迁出城市和十大人口迁入城市。
只要看到这个,我们很快就能理解为什么三四线城市的房价支撑力比一线城市弱得多,我们知道,人口总是从三四线城市流向一线城市,因此北上广这些地方房价的指数一定是很高的。
我们的主观感知往往与大数据结论相悖
我们很多主观感觉和个人想象,往往和大数据的结果是不相符的。
在我出国之前,印象中一直觉得我们国家是贫穷的,我们的生活质量、健康指数比发达国家落后。但是这张图告诉我们,事实并非如此。
这是由一位美国科学家把很多个国家的人均收入和平均寿命从1800年起进行对比,而后画出来的图像。这上面每一个圆点对应一个国家一年的平均国民收入和平均寿命,黄色的点代表美国,红色的点代表中国。美国的数据从1802年开始,实际上美国的起点和中国人是很像的,它有很多年是停滞发展的,从这张图可以看到,在它的国民收入不停增长的同时,它的国民平均寿命,并没有什么太大变化,它一直是平的。
而中国则不一样,中国是因为1800年之后,有过很多灾难和战争,所以在将近100年的时间,中国的红点一直就在左下角徘徊,国民收入和人均寿命一直有波动。
但是从1949年以后,虽然中国还没有富起来,但由于有了相对规范的社会管理和一些卫生政策的实施,我们国民的平均寿命开始有了飞跃式增长。实际上它很快和发达国家的平均寿命持平,达到了65~70岁。一直到改革开放之后,这个红点开始向右移动,那就说明中国人在健康之后,又富了起来。
这些数据如果不画出来,也许我们对历史的解读会有一个不同的结论。
非医学专业的人,也能通过大数据帮助人类健康
那么大数据能够为我们的医疗和健康做什么事情呢?
它可以拯救生命。1854年,伦敦曾经有过霍乱的大爆发,当时每年有两万三千多人因此丧生。没有人能知道为什么,因为当初显微镜看不到病原体,很多医疗技术还没有被发明。在这种情况下,伦敦开始研发它的大数据。
他们做的一件事情就是统计伦敦市民的死亡数据,每个街道每户人家,哪一年死了什么人,都登记下来。有一个非常勤奋的卫生官员,还把伦敦地图画出来,并且根据这个伦敦市民死亡数据去调查死者的年纪和死因,并统计了霍乱的死亡症状和数据,把霍乱在伦敦扩散的情况和地图做了对比,就是右边这个图。
他很快就找到了霍乱的传染源,虽然传染源的水也看不出有任何污染,伦敦政府的官员将信将疑,但还是关闭了这个水源。关掉之后的第二年,伦敦霍乱死亡人数大大下降。
这个数据分析,拯救了成千上万个人,这就是大数据对我们的神奇作用。
下面这个是现代版的大数据研究,根据美国几百万人的电子病历做出的分析。
左边记录了所有人的疾病,如果一个病人又有疾病a,又有疾病b,就在a和b之间连一条曲线,你就看到有些疾病互相关联得比较紧密,有一些疾病没有什么关联;通过这些数据,整合成右边的疾病网络,我们可以看到人是怎么样产生疾病或传染疾病的。比如背部的肌肉疼痛,可能会有的并发症。
这些图是由像我这样并没有受过医学训练的人画出来的,我也并不懂医学的原理,但是因为我们有了城市人群的医疗数据,我们就能知道很多病之间是有关联的,我们治病a的时候,可能要考虑病b,不能头疼医头脚疼医脚,而应该是系统性地进行治疗。
因此这就是现代数据对人们健康生活的一个重要指导作用。那么大数据对我们城市健康还有什么深刻的影响呢?
大家都很关心PM2.5,这是纽约市对空气污染和人口昼夜分布做出的分析。
他们在城市里到处布置传感器,测量不同位置PM2.5的浓度,然后画出来它的分布情况。深红色就是PM2.5比较高的地方,也就是说曼哈顿的下端和布鲁克林的上端污染最严重。但这里并没有告诉它对人口的影响。
下面是麻省理工学院一个研究团队,把这些数据和其它不同数据联合起来做出的分析。
左边是纽约市人口居住密度的数据,深绿色表示居住人口比较多;右边通过美国移动手机的位置数据分析纽约市昼夜人口分布差异,我们可以看到白天人口集中在曼哈顿的下端和布鲁克林的上端。
把这两方面的数据和PM2.5的监测数据放到一起,可以得出不同时间雾霾对人的影响。
现有的宫颈癌防治方案都是由西方制定的
中国人需要自己的大数据研发精准医疗
我们可以利用大数据做到精准医疗。
什么叫精准医疗?就是在制定预防措施和治疗方案的时候,把人的基因、生活环境和生活习惯等因素考量进去,使得治疗手段更有效率、更健康,这就叫精准医疗,精准医疗是离不开精准数据的。
我们的团队现在拥有中国2300多项医学检验的海量数据,每年处理的标本量超过了四千万例,覆盖了全国98%的人口、所有的民族,所有的年龄层次以及性别。
其中一项是宫颈癌筛查。在过去几年当中,我们为27个省市,大概1600多万人做了宫颈癌的筛查,之后我们从数据中获得了很多以前我们不知道的信息。
一个是,我们找到了针对中国人口漏检率最低的检测方式。
左边我们看到用细胞学检测方式会有百分之一点几的漏检率,右边病毒学的检测方式,漏检率就更高,百分之八九左右。
但是如果我们团队把两种检测结合起来一起做,漏检率可以降低到0.6%,数据更加准确了,结果就更好了。
其次,我们发现宫颈癌的感染病毒HPV的100多种型别中,中国人群感染率最高的型别是52型,16型,58型,这和全球HPV数据中心报道的感染率最高的16和18型不同。
但是,目前宫颈癌的预防、宫颈癌的筛查和患者管理指南主要是基于HPV16/18型等高危型HPV设计和制定的,我国并没有自己独特的预防、筛查和患者管理方案,这值得我们重视和思考。
有了中国人口的大数据,我们就能够帮助我们中国人开发有助于自己特点的,更优化的医疗手段和药物,并且,大数据也使预防成为可能。
为什么将来我们不再需要那么多医院?
想要在一个人得病之前就知道他将来要得什么病,这是很难的一个事情,如果没有数据,基本上是不可能的。
但是现在我们的技术手段和工作方式已经与以前非常不同了,比如说一个婴儿从出生那一刻就开始产生大量的数据,我们把它成长的每个阶段的数据都记录、保存起来,于是后面就能够在人的任何方面,进行数据的挖掘和分析。
比如说我们去了医院,留下了电子病历;我们去了超市,我们留下了购买食物的证据;我们去了诊所跟医生谈过,那么医生给了我们什么建议;我们在学校做了什么、我们的生活习惯是什么、我们抽不抽烟……这些数据都可以量化,都可以在城市内对大范围的人群进行量化。
那么,我们未来的医疗就已经不是简单的住不住院的问题,去不去急诊的问题,它会包含日常保健、疾病预防、急性病和慢性病的管理,甚至临终护理等等。
比如90%的宫颈癌是可以预防和治愈的。宫颈癌从感染到癌变可以长达10年,10年足以让患者做很多的工作,让它不产生癌变。而宫颈癌跟很多风险因子有很直接的关系,我们有了数据,就可以针对这些高风险的宫颈癌感染人群进行预防和护理,改变不利的生活方式,那么就能够延迟,甚至成功地阻止宫颈癌癌变。
那么有了大数据和大预防,我们城市生活当中的医疗资源还可以得到更好、更恰当的利用。
这是我们在以前埃森哲做的一些研究,这个金字塔上的百分比是有病人口的百分比,金字塔侧面的数据是,它对社会医疗资源的消耗程度。
那么我们就看到了,健康人群只消耗一个社会20%的卫生资源,其他80%都被有病人群消耗掉了。在有病人群里面,只有20%左右是非常复杂的非常急的病,这些病会消耗掉整体60%的资源。
这就告诉我们,如果我们可以尽量阻止健康人口变成有病人口,防止慢性病人口变成复杂病人口,那么我们就能把社会的医疗资源节约起来,更合理地匹配和应用。
那么我们将来还会需要那么多医院吗?答案是:不需要那么多了。
我们还需要医院,但是我们可以在大数据的指引下,对人生活的每一个阶段进行干预和指导,做个性化的医疗服务。
有了大数据,我们对城市人口的集体行为有了更多的认知,我们了解到一个社会是如何互动的,数据可以对出现的问题提供有针对性的解决方案,我们将会因此而更健康,我们的生存环境将会因此而更美好。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在互联网运营、产品优化、用户增长等领域,次日留存率是衡量产品价值、用户粘性与运营效果的核心指标,更是判断新用户是否认可产 ...
2026-05-09相关性分析是数据分析领域中用于探究两个或多个变量之间关联强度与方向的核心方法,广泛应用于科研探索、商业决策、医疗研究、社 ...
2026-05-09 数据分析师八成以上的时间在和数据表格打交道,但许多人拿到Excel后习惯性地先算、先分析,结果回头发现漏了一列关键数据, ...
2026-05-09在数据驱动运营的时代,指标是连接业务目标与实际行动的核心桥梁,是企业解读业务现状、发现问题、预判趋势的“量化标尺”。一套 ...
2026-05-08在存量竞争日趋激烈的商业时代,“以客户为中心”早已从口号落地为企业运营的核心逻辑。而客户画像作为打通“了解客户”与“服务 ...
2026-05-08 很多数据分析师每天与Excel打交道,但当被问到“什么是表格结构数据”“它和表结构数据有什么区别”“表格结构数据有哪些核 ...
2026-05-08在数据分析、计量研究等场景中,回归分析是探究变量间量化关系的核心方法,无论是简单的一元线性回归,还是复杂的多元线性回归、 ...
2026-05-07在数据分析、计量研究等场景中,回归分析是探究变量间量化关系的核心方法,无论是简单的一元线性回归,还是复杂的多元线性回归、 ...
2026-05-07 很多数据分析师画过趋势图、做过业绩预测,但当被问到“这个月销售额增长20%,到底是长期趋势自然增长,还是促销活动的短期 ...
2026-05-07在数字化时代,商业竞争的核心已从“经验驱动”转向“数据驱动”,越来越多的企业意识到,商业分析不是简单的数据统计与报表呈现 ...
2026-05-06在Excel数据透视表的实操中,“引用”是连接透视表与公式、辅助数据的核心操作,而相对引用作为最基础、最常用的引用方式,其设 ...
2026-05-06 很多数据分析师做过按月份的销售额趋势图,画过按天的流量折线图,但当被问到“时间序列和普通数据有什么本质区别”“季节性 ...
2026-05-06在Excel数据分析中,数据透视表是汇总、整理海量数据的高效工具,而公式则是实现数据二次计算、逻辑判断的核心功能。实际操作中 ...
2026-04-30Excel透视图是数据分析中不可或缺的工具,它能将透视表中的数据快速可视化,帮助我们直观捕捉数据规律、呈现分析结果。但在实际 ...
2026-04-30 很多数据分析师能熟练地计算指标、搭建标签体系,但当被问到“画像到底在解决什么问题”“画像和标签是什么关系”“画像如何 ...
2026-04-30在中介效应分析中,人口统计学变量(如年龄、性别、学历、收入、职业等)是常见的控制变量或调节变量,其处理方式直接影响分析结 ...
2026-04-29在SQL数据库实操中,日期数据的存储与显示是高频需求,而“数字日期”(如20240520、20241231、45321)是很多开发者、数据分析师 ...
2026-04-29 很多分析师在设计标签时思路清晰,但真到落地环节却面临“数据在手,不知如何转化为可用标签”的困境:或因加工方式选择不当 ...
2026-04-29在手游行业竞争日趋白热化的当下,“流量为王”早已升级为“留存为王”,而付费用户留存率更是衡量一款手游盈利能力、运营质量的 ...
2026-04-28在日常MySQL数据库运维与开发中,经常会遇到“同一台服务器上,两个不同数据库(以下简称“源库”“目标库”)的表数据需要保持 ...
2026-04-28