
大数据是否会让我们未来的医疗资源不再紧张
前不久,一定有很多人追踪过美国大选,这次大选的结果让人跌破眼镜,因为所有媒体在选前都认为希拉里会赢,都认为特朗普是弱势的一方,但结果却是迥然不同的。
其实早在三个月前,我们中国人手里就已经有了一些能够预示这个结果的数据。
阿里巴巴在大选前对美国总统候选人各自的粉丝购买的宣传品做了比较,红线就是特朗普的,他的粉丝买了帽子、面具、标语等等;蓝色的是希拉里,你会发现两组支持者的热情是不一样的。
在这届的美国大选中,只有55%的合法选民去投票,特朗普获胜的关键因素就是,支持他的人比支持希拉里的人更狂热,他们都去投票了。
阿里巴巴的数据在三个月之前就能看出端倪,最后果然是特朗普赢了,所以数据能告诉我们很多智慧。当今数据的量已经非常庞大,要按字节算的话,它已经超过了太阳系所有原子数目的总和,如果我们能够把这些大数据很好地运用起来,就能给我们非常多新的信息和知识。
这一张图是我们中国的数据,右边是百度地图显示的最近某年春运期间的人口迁徙方向,左边是该年春运第一天,十大人口迁出城市和十大人口迁入城市。
只要看到这个,我们很快就能理解为什么三四线城市的房价支撑力比一线城市弱得多,我们知道,人口总是从三四线城市流向一线城市,因此北上广这些地方房价的指数一定是很高的。
我们的主观感知往往与大数据结论相悖
我们很多主观感觉和个人想象,往往和大数据的结果是不相符的。
在我出国之前,印象中一直觉得我们国家是贫穷的,我们的生活质量、健康指数比发达国家落后。但是这张图告诉我们,事实并非如此。
这是由一位美国科学家把很多个国家的人均收入和平均寿命从1800年起进行对比,而后画出来的图像。这上面每一个圆点对应一个国家一年的平均国民收入和平均寿命,黄色的点代表美国,红色的点代表中国。美国的数据从1802年开始,实际上美国的起点和中国人是很像的,它有很多年是停滞发展的,从这张图可以看到,在它的国民收入不停增长的同时,它的国民平均寿命,并没有什么太大变化,它一直是平的。
而中国则不一样,中国是因为1800年之后,有过很多灾难和战争,所以在将近100年的时间,中国的红点一直就在左下角徘徊,国民收入和人均寿命一直有波动。
但是从1949年以后,虽然中国还没有富起来,但由于有了相对规范的社会管理和一些卫生政策的实施,我们国民的平均寿命开始有了飞跃式增长。实际上它很快和发达国家的平均寿命持平,达到了65~70岁。一直到改革开放之后,这个红点开始向右移动,那就说明中国人在健康之后,又富了起来。
这些数据如果不画出来,也许我们对历史的解读会有一个不同的结论。
非医学专业的人,也能通过大数据帮助人类健康
那么大数据能够为我们的医疗和健康做什么事情呢?
它可以拯救生命。1854年,伦敦曾经有过霍乱的大爆发,当时每年有两万三千多人因此丧生。没有人能知道为什么,因为当初显微镜看不到病原体,很多医疗技术还没有被发明。在这种情况下,伦敦开始研发它的大数据。
他们做的一件事情就是统计伦敦市民的死亡数据,每个街道每户人家,哪一年死了什么人,都登记下来。有一个非常勤奋的卫生官员,还把伦敦地图画出来,并且根据这个伦敦市民死亡数据去调查死者的年纪和死因,并统计了霍乱的死亡症状和数据,把霍乱在伦敦扩散的情况和地图做了对比,就是右边这个图。
他很快就找到了霍乱的传染源,虽然传染源的水也看不出有任何污染,伦敦政府的官员将信将疑,但还是关闭了这个水源。关掉之后的第二年,伦敦霍乱死亡人数大大下降。
这个数据分析,拯救了成千上万个人,这就是大数据对我们的神奇作用。
下面这个是现代版的大数据研究,根据美国几百万人的电子病历做出的分析。
左边记录了所有人的疾病,如果一个病人又有疾病a,又有疾病b,就在a和b之间连一条曲线,你就看到有些疾病互相关联得比较紧密,有一些疾病没有什么关联;通过这些数据,整合成右边的疾病网络,我们可以看到人是怎么样产生疾病或传染疾病的。比如背部的肌肉疼痛,可能会有的并发症。
这些图是由像我这样并没有受过医学训练的人画出来的,我也并不懂医学的原理,但是因为我们有了城市人群的医疗数据,我们就能知道很多病之间是有关联的,我们治病a的时候,可能要考虑病b,不能头疼医头脚疼医脚,而应该是系统性地进行治疗。
因此这就是现代数据对人们健康生活的一个重要指导作用。那么大数据对我们城市健康还有什么深刻的影响呢?
大家都很关心PM2.5,这是纽约市对空气污染和人口昼夜分布做出的分析。
他们在城市里到处布置传感器,测量不同位置PM2.5的浓度,然后画出来它的分布情况。深红色就是PM2.5比较高的地方,也就是说曼哈顿的下端和布鲁克林的上端污染最严重。但这里并没有告诉它对人口的影响。
下面是麻省理工学院一个研究团队,把这些数据和其它不同数据联合起来做出的分析。
左边是纽约市人口居住密度的数据,深绿色表示居住人口比较多;右边通过美国移动手机的位置数据分析纽约市昼夜人口分布差异,我们可以看到白天人口集中在曼哈顿的下端和布鲁克林的上端。
把这两方面的数据和PM2.5的监测数据放到一起,可以得出不同时间雾霾对人的影响。
现有的宫颈癌防治方案都是由西方制定的
中国人需要自己的大数据研发精准医疗
我们可以利用大数据做到精准医疗。
什么叫精准医疗?就是在制定预防措施和治疗方案的时候,把人的基因、生活环境和生活习惯等因素考量进去,使得治疗手段更有效率、更健康,这就叫精准医疗,精准医疗是离不开精准数据的。
我们的团队现在拥有中国2300多项医学检验的海量数据,每年处理的标本量超过了四千万例,覆盖了全国98%的人口、所有的民族,所有的年龄层次以及性别。
其中一项是宫颈癌筛查。在过去几年当中,我们为27个省市,大概1600多万人做了宫颈癌的筛查,之后我们从数据中获得了很多以前我们不知道的信息。
一个是,我们找到了针对中国人口漏检率最低的检测方式。
左边我们看到用细胞学检测方式会有百分之一点几的漏检率,右边病毒学的检测方式,漏检率就更高,百分之八九左右。
但是如果我们团队把两种检测结合起来一起做,漏检率可以降低到0.6%,数据更加准确了,结果就更好了。
其次,我们发现宫颈癌的感染病毒HPV的100多种型别中,中国人群感染率最高的型别是52型,16型,58型,这和全球HPV数据中心报道的感染率最高的16和18型不同。
但是,目前宫颈癌的预防、宫颈癌的筛查和患者管理指南主要是基于HPV16/18型等高危型HPV设计和制定的,我国并没有自己独特的预防、筛查和患者管理方案,这值得我们重视和思考。
有了中国人口的大数据,我们就能够帮助我们中国人开发有助于自己特点的,更优化的医疗手段和药物,并且,大数据也使预防成为可能。
为什么将来我们不再需要那么多医院?
想要在一个人得病之前就知道他将来要得什么病,这是很难的一个事情,如果没有数据,基本上是不可能的。
但是现在我们的技术手段和工作方式已经与以前非常不同了,比如说一个婴儿从出生那一刻就开始产生大量的数据,我们把它成长的每个阶段的数据都记录、保存起来,于是后面就能够在人的任何方面,进行数据的挖掘和分析。
比如说我们去了医院,留下了电子病历;我们去了超市,我们留下了购买食物的证据;我们去了诊所跟医生谈过,那么医生给了我们什么建议;我们在学校做了什么、我们的生活习惯是什么、我们抽不抽烟……这些数据都可以量化,都可以在城市内对大范围的人群进行量化。
那么,我们未来的医疗就已经不是简单的住不住院的问题,去不去急诊的问题,它会包含日常保健、疾病预防、急性病和慢性病的管理,甚至临终护理等等。
比如90%的宫颈癌是可以预防和治愈的。宫颈癌从感染到癌变可以长达10年,10年足以让患者做很多的工作,让它不产生癌变。而宫颈癌跟很多风险因子有很直接的关系,我们有了数据,就可以针对这些高风险的宫颈癌感染人群进行预防和护理,改变不利的生活方式,那么就能够延迟,甚至成功地阻止宫颈癌癌变。
那么有了大数据和大预防,我们城市生活当中的医疗资源还可以得到更好、更恰当的利用。
这是我们在以前埃森哲做的一些研究,这个金字塔上的百分比是有病人口的百分比,金字塔侧面的数据是,它对社会医疗资源的消耗程度。
那么我们就看到了,健康人群只消耗一个社会20%的卫生资源,其他80%都被有病人群消耗掉了。在有病人群里面,只有20%左右是非常复杂的非常急的病,这些病会消耗掉整体60%的资源。
这就告诉我们,如果我们可以尽量阻止健康人口变成有病人口,防止慢性病人口变成复杂病人口,那么我们就能把社会的医疗资源节约起来,更合理地匹配和应用。
那么我们将来还会需要那么多医院吗?答案是:不需要那么多了。
我们还需要医院,但是我们可以在大数据的指引下,对人生活的每一个阶段进行干预和指导,做个性化的医疗服务。
有了大数据,我们对城市人口的集体行为有了更多的认知,我们了解到一个社会是如何互动的,数据可以对出现的问题提供有针对性的解决方案,我们将会因此而更健康,我们的生存环境将会因此而更美好。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
Python HTTP 请求工具对比:urllib.request 与 requests 的核心差异与选择指南 在 Python 处理 HTTP 请求(如接口调用、数据爬取 ...
2025-09-12解决 pd.read_csv 读取长浮点数据的科学计数法问题 为帮助 Python 数据从业者解决pd.read_csv读取长浮点数据时的科学计数法问题 ...
2025-09-12CDA 数据分析师:业务数据分析步骤的落地者与价值优化者 业务数据分析是企业解决日常运营问题、提升执行效率的核心手段,其价值 ...
2025-09-12用 SQL 验证业务逻辑:从规则拆解到数据把关的实战指南 在业务系统落地过程中,“业务逻辑” 是连接 “需求设计” 与 “用户体验 ...
2025-09-11塔吉特百货孕妇营销案例:数据驱动下的精准零售革命与启示 在零售行业 “流量红利见顶” 的当下,精准营销成为企业突围的核心方 ...
2025-09-11CDA 数据分析师与战略 / 业务数据分析:概念辨析与协同价值 在数据驱动决策的体系中,“战略数据分析”“业务数据分析” 是企业 ...
2025-09-11Excel 数据聚类分析:从操作实践到业务价值挖掘 在数据分析场景中,聚类分析作为 “无监督分组” 的核心工具,能从杂乱数据中挖 ...
2025-09-10统计模型的核心目的:从数据解读到决策支撑的价值导向 统计模型作为数据分析的核心工具,并非简单的 “公式堆砌”,而是围绕特定 ...
2025-09-10CDA 数据分析师:商业数据分析实践的落地者与价值创造者 商业数据分析的价值,最终要在 “实践” 中体现 —— 脱离业务场景的分 ...
2025-09-10机器学习解决实际问题的核心关键:从业务到落地的全流程解析 在人工智能技术落地的浪潮中,机器学习作为核心工具,已广泛应用于 ...
2025-09-09SPSS 编码状态区域中 Unicode 的功能与价值解析 在 SPSS(Statistical Product and Service Solutions,统计产品与服务解决方案 ...
2025-09-09CDA 数据分析师:驾驭商业数据分析流程的核心力量 在商业决策从 “经验驱动” 向 “数据驱动” 转型的过程中,商业数据分析总体 ...
2025-09-09R 语言:数据科学与科研领域的核心工具及优势解析 一、引言 在数据驱动决策的时代,无论是科研人员验证实验假设(如前文中的 T ...
2025-09-08T 检验在假设检验中的应用与实践 一、引言 在科研数据分析、医学实验验证、经济指标对比等领域,常常需要判断 “样本间的差异是 ...
2025-09-08在商业竞争日益激烈的当下,“用数据说话” 已从企业的 “加分项” 变为 “生存必需”。然而,零散的数据分析无法持续为业务赋能 ...
2025-09-08随机森林算法的核心特点:原理、优势与应用解析 在机器学习领域,随机森林(Random Forest)作为集成学习(Ensemble Learning) ...
2025-09-05Excel 区域名定义:从基础到进阶的高效应用指南 在 Excel 数据处理中,频繁引用单元格区域(如A2:A100、B3:D20)不仅容易出错, ...
2025-09-05CDA 数据分析师:以六大分析方法构建数据驱动业务的核心能力 在数据驱动决策成为企业共识的当下,CDA(Certified Data Analyst) ...
2025-09-05SQL 日期截取:从基础方法到业务实战的全维度解析 在数据处理与业务分析中,日期数据是连接 “业务行为” 与 “时间维度” 的核 ...
2025-09-04在卷积神经网络(CNN)的发展历程中,解决 “梯度消失”“特征复用不足”“模型参数冗余” 一直是核心命题。2017 年提出的密集连 ...
2025-09-04