京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据是否会让我们未来的医疗资源不再紧张
前不久,一定有很多人追踪过美国大选,这次大选的结果让人跌破眼镜,因为所有媒体在选前都认为希拉里会赢,都认为特朗普是弱势的一方,但结果却是迥然不同的。
其实早在三个月前,我们中国人手里就已经有了一些能够预示这个结果的数据。
阿里巴巴在大选前对美国总统候选人各自的粉丝购买的宣传品做了比较,红线就是特朗普的,他的粉丝买了帽子、面具、标语等等;蓝色的是希拉里,你会发现两组支持者的热情是不一样的。
在这届的美国大选中,只有55%的合法选民去投票,特朗普获胜的关键因素就是,支持他的人比支持希拉里的人更狂热,他们都去投票了。
阿里巴巴的数据在三个月之前就能看出端倪,最后果然是特朗普赢了,所以数据能告诉我们很多智慧。当今数据的量已经非常庞大,要按字节算的话,它已经超过了太阳系所有原子数目的总和,如果我们能够把这些大数据很好地运用起来,就能给我们非常多新的信息和知识。
这一张图是我们中国的数据,右边是百度地图显示的最近某年春运期间的人口迁徙方向,左边是该年春运第一天,十大人口迁出城市和十大人口迁入城市。
只要看到这个,我们很快就能理解为什么三四线城市的房价支撑力比一线城市弱得多,我们知道,人口总是从三四线城市流向一线城市,因此北上广这些地方房价的指数一定是很高的。
我们的主观感知往往与大数据结论相悖
我们很多主观感觉和个人想象,往往和大数据的结果是不相符的。
在我出国之前,印象中一直觉得我们国家是贫穷的,我们的生活质量、健康指数比发达国家落后。但是这张图告诉我们,事实并非如此。
这是由一位美国科学家把很多个国家的人均收入和平均寿命从1800年起进行对比,而后画出来的图像。这上面每一个圆点对应一个国家一年的平均国民收入和平均寿命,黄色的点代表美国,红色的点代表中国。美国的数据从1802年开始,实际上美国的起点和中国人是很像的,它有很多年是停滞发展的,从这张图可以看到,在它的国民收入不停增长的同时,它的国民平均寿命,并没有什么太大变化,它一直是平的。
而中国则不一样,中国是因为1800年之后,有过很多灾难和战争,所以在将近100年的时间,中国的红点一直就在左下角徘徊,国民收入和人均寿命一直有波动。
但是从1949年以后,虽然中国还没有富起来,但由于有了相对规范的社会管理和一些卫生政策的实施,我们国民的平均寿命开始有了飞跃式增长。实际上它很快和发达国家的平均寿命持平,达到了65~70岁。一直到改革开放之后,这个红点开始向右移动,那就说明中国人在健康之后,又富了起来。
这些数据如果不画出来,也许我们对历史的解读会有一个不同的结论。
非医学专业的人,也能通过大数据帮助人类健康
那么大数据能够为我们的医疗和健康做什么事情呢?
它可以拯救生命。1854年,伦敦曾经有过霍乱的大爆发,当时每年有两万三千多人因此丧生。没有人能知道为什么,因为当初显微镜看不到病原体,很多医疗技术还没有被发明。在这种情况下,伦敦开始研发它的大数据。
他们做的一件事情就是统计伦敦市民的死亡数据,每个街道每户人家,哪一年死了什么人,都登记下来。有一个非常勤奋的卫生官员,还把伦敦地图画出来,并且根据这个伦敦市民死亡数据去调查死者的年纪和死因,并统计了霍乱的死亡症状和数据,把霍乱在伦敦扩散的情况和地图做了对比,就是右边这个图。
他很快就找到了霍乱的传染源,虽然传染源的水也看不出有任何污染,伦敦政府的官员将信将疑,但还是关闭了这个水源。关掉之后的第二年,伦敦霍乱死亡人数大大下降。
这个数据分析,拯救了成千上万个人,这就是大数据对我们的神奇作用。
下面这个是现代版的大数据研究,根据美国几百万人的电子病历做出的分析。
左边记录了所有人的疾病,如果一个病人又有疾病a,又有疾病b,就在a和b之间连一条曲线,你就看到有些疾病互相关联得比较紧密,有一些疾病没有什么关联;通过这些数据,整合成右边的疾病网络,我们可以看到人是怎么样产生疾病或传染疾病的。比如背部的肌肉疼痛,可能会有的并发症。
这些图是由像我这样并没有受过医学训练的人画出来的,我也并不懂医学的原理,但是因为我们有了城市人群的医疗数据,我们就能知道很多病之间是有关联的,我们治病a的时候,可能要考虑病b,不能头疼医头脚疼医脚,而应该是系统性地进行治疗。
因此这就是现代数据对人们健康生活的一个重要指导作用。那么大数据对我们城市健康还有什么深刻的影响呢?
大家都很关心PM2.5,这是纽约市对空气污染和人口昼夜分布做出的分析。
他们在城市里到处布置传感器,测量不同位置PM2.5的浓度,然后画出来它的分布情况。深红色就是PM2.5比较高的地方,也就是说曼哈顿的下端和布鲁克林的上端污染最严重。但这里并没有告诉它对人口的影响。
下面是麻省理工学院一个研究团队,把这些数据和其它不同数据联合起来做出的分析。
左边是纽约市人口居住密度的数据,深绿色表示居住人口比较多;右边通过美国移动手机的位置数据分析纽约市昼夜人口分布差异,我们可以看到白天人口集中在曼哈顿的下端和布鲁克林的上端。
把这两方面的数据和PM2.5的监测数据放到一起,可以得出不同时间雾霾对人的影响。
现有的宫颈癌防治方案都是由西方制定的
中国人需要自己的大数据研发精准医疗
我们可以利用大数据做到精准医疗。
什么叫精准医疗?就是在制定预防措施和治疗方案的时候,把人的基因、生活环境和生活习惯等因素考量进去,使得治疗手段更有效率、更健康,这就叫精准医疗,精准医疗是离不开精准数据的。
我们的团队现在拥有中国2300多项医学检验的海量数据,每年处理的标本量超过了四千万例,覆盖了全国98%的人口、所有的民族,所有的年龄层次以及性别。
其中一项是宫颈癌筛查。在过去几年当中,我们为27个省市,大概1600多万人做了宫颈癌的筛查,之后我们从数据中获得了很多以前我们不知道的信息。
一个是,我们找到了针对中国人口漏检率最低的检测方式。
左边我们看到用细胞学检测方式会有百分之一点几的漏检率,右边病毒学的检测方式,漏检率就更高,百分之八九左右。
但是如果我们团队把两种检测结合起来一起做,漏检率可以降低到0.6%,数据更加准确了,结果就更好了。
其次,我们发现宫颈癌的感染病毒HPV的100多种型别中,中国人群感染率最高的型别是52型,16型,58型,这和全球HPV数据中心报道的感染率最高的16和18型不同。
但是,目前宫颈癌的预防、宫颈癌的筛查和患者管理指南主要是基于HPV16/18型等高危型HPV设计和制定的,我国并没有自己独特的预防、筛查和患者管理方案,这值得我们重视和思考。
有了中国人口的大数据,我们就能够帮助我们中国人开发有助于自己特点的,更优化的医疗手段和药物,并且,大数据也使预防成为可能。
为什么将来我们不再需要那么多医院?
想要在一个人得病之前就知道他将来要得什么病,这是很难的一个事情,如果没有数据,基本上是不可能的。
但是现在我们的技术手段和工作方式已经与以前非常不同了,比如说一个婴儿从出生那一刻就开始产生大量的数据,我们把它成长的每个阶段的数据都记录、保存起来,于是后面就能够在人的任何方面,进行数据的挖掘和分析。
比如说我们去了医院,留下了电子病历;我们去了超市,我们留下了购买食物的证据;我们去了诊所跟医生谈过,那么医生给了我们什么建议;我们在学校做了什么、我们的生活习惯是什么、我们抽不抽烟……这些数据都可以量化,都可以在城市内对大范围的人群进行量化。
那么,我们未来的医疗就已经不是简单的住不住院的问题,去不去急诊的问题,它会包含日常保健、疾病预防、急性病和慢性病的管理,甚至临终护理等等。
比如90%的宫颈癌是可以预防和治愈的。宫颈癌从感染到癌变可以长达10年,10年足以让患者做很多的工作,让它不产生癌变。而宫颈癌跟很多风险因子有很直接的关系,我们有了数据,就可以针对这些高风险的宫颈癌感染人群进行预防和护理,改变不利的生活方式,那么就能够延迟,甚至成功地阻止宫颈癌癌变。
那么有了大数据和大预防,我们城市生活当中的医疗资源还可以得到更好、更恰当的利用。
这是我们在以前埃森哲做的一些研究,这个金字塔上的百分比是有病人口的百分比,金字塔侧面的数据是,它对社会医疗资源的消耗程度。
那么我们就看到了,健康人群只消耗一个社会20%的卫生资源,其他80%都被有病人群消耗掉了。在有病人群里面,只有20%左右是非常复杂的非常急的病,这些病会消耗掉整体60%的资源。
这就告诉我们,如果我们可以尽量阻止健康人口变成有病人口,防止慢性病人口变成复杂病人口,那么我们就能把社会的医疗资源节约起来,更合理地匹配和应用。
那么我们将来还会需要那么多医院吗?答案是:不需要那么多了。
我们还需要医院,但是我们可以在大数据的指引下,对人生活的每一个阶段进行干预和指导,做个性化的医疗服务。
有了大数据,我们对城市人口的集体行为有了更多的认知,我们了解到一个社会是如何互动的,数据可以对出现的问题提供有针对性的解决方案,我们将会因此而更健康,我们的生存环境将会因此而更美好。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在构建前向神经网络(Feedforward Neural Network,简称 FNN)时,“隐藏层数目设多少?每个隐藏层该放多少个神经元?” 是每个 ...
2025-10-29这个问题切中了 Excel 用户的常见困惑 —— 将 “数据可视化工具” 与 “数据挖掘算法” 的功能边界混淆。核心结论是:Excel 透 ...
2025-10-29在 CDA(Certified Data Analyst)数据分析师的工作中,“多组数据差异验证” 是高频需求 —— 例如 “3 家门店的销售额是否有显 ...
2025-10-29在数据分析中,“正态分布” 是许多统计方法(如 t 检验、方差分析、线性回归)的核心假设 —— 数据符合正态分布时,统计检验的 ...
2025-10-28箱线图(Box Plot)作为展示数据分布的核心统计图表,能直观呈现数据的中位数、四分位数、离散程度与异常值,是质量控制、实验分 ...
2025-10-28在 CDA(Certified Data Analyst)数据分析师的工作中,“分类变量关联分析” 是高频需求 —— 例如 “用户性别是否影响支付方式 ...
2025-10-28在数据可视化领域,单一图表往往难以承载多维度信息 —— 力导向图擅长展现节点间的关联结构与空间分布,却无法直观呈现 “流量 ...
2025-10-27这个问题问到了 Tableau 中两个核心行级函数的经典组合,理解它能帮你快速实现 “相对位置占比” 的分析需求。“index ()/size ( ...
2025-10-27对 CDA(Certified Data Analyst)数据分析师而言,“假设检验” 绝非 “套用统计公式的机械操作”,而是 “将模糊的业务猜想转 ...
2025-10-27在数字化运营中,“凭感觉做决策” 早已成为过去式 —— 运营指标作为业务增长的 “晴雨表” 与 “导航仪”,直接决定了运营动作 ...
2025-10-24在卷积神经网络(CNN)的训练中,“卷积层(Conv)后是否添加归一化(如 BN、LN)和激活函数(如 ReLU、GELU)” 是每个开发者都 ...
2025-10-24在数据决策链条中,“统计分析” 是挖掘数据规律的核心,“可视化” 是呈现规律的桥梁 ——CDA(Certified Data Analyst)数据分 ...
2025-10-24在 “神经网络与卡尔曼滤波融合” 的理论基础上,Python 凭借其丰富的科学计算库(NumPy、FilterPy)、深度学习框架(PyTorch、T ...
2025-10-23在工业控制、自动驾驶、机器人导航、气象预测等领域,“状态估计” 是核心任务 —— 即从含噪声的观测数据中,精准推断系统的真 ...
2025-10-23在数据分析全流程中,“数据清洗” 恰似烹饪前的食材处理:若食材(数据)腐烂变质、混杂异物(脏数据),即便拥有精湛的烹饪技 ...
2025-10-23在人工智能领域,“大模型” 已成为近年来的热点标签:从参数超 1750 亿的 GPT-3,到万亿级参数的 PaLM,再到多模态大模型 GPT-4 ...
2025-10-22在 MySQL 数据库的日常运维与开发中,“更新数据是否会影响读数据” 是一个高频疑问。这个问题的答案并非简单的 “是” 或 “否 ...
2025-10-22在企业数据分析中,“数据孤岛” 是制约分析深度的核心瓶颈 —— 用户数据散落在注册系统、APP 日志、客服记录中,订单数据分散 ...
2025-10-22在神经网络设计中,“隐藏层个数” 是决定模型能力的关键参数 —— 太少会导致 “欠拟合”(模型无法捕捉复杂数据规律,如用单隐 ...
2025-10-21在特征工程流程中,“单变量筛选” 是承上启下的关键步骤 —— 它通过分析单个特征与目标变量的关联强度,剔除无意义、冗余的特 ...
2025-10-21