
医疗大数据:为何“沉睡不醒”_数据分析师考试
医疗大数据已经做了十几年,但现在各个医院的大量信息还完全沉默在那里。
“如果说20世纪是石油为王的时代,21世纪就是数据为王的时代。”近日,在由北京市科协主办的国际生物医药与医疗大数据专题研讨会上,与会专家如是说。
然而,在专家看来,中国医疗大数据的“剑”磨了十几年依然很钝,我国在医疗大数据方面的发展并不乐观。
“医疗大数据已经做了十几年,但现在各个医院的大量信息还是完全沉默在那里。”北京中医药大学东方医院教授、信息管理处处长韦云感慨,我国医疗大数据的利用率仍然太低。
医疗大数据将在沉默中爆发,还是在沉默中灭亡?这向中国生物医药与医疗领域发起了新的挑战。
健康中国的新机遇
从1980年起,美国卫生福利部每隔十年会发布一项健康计划,其核心着眼于改善全体国民的健康。我国卫生部在“2008年全国卫生工作会议”上也正式提出“健康中国2020”战略。
这其中,大数据带来了前所未有的机遇。美国宾州德雷克塞尔大学公共卫生学院环境与职业卫生学系主任刘隆健说,大数据对于研究不同人群的健康特征、发现新疾病、控制全球性传染病都有帮助。
国家心血管病中心医学统计部主任李卫表示,大数据也为医疗器械的安全性评价带来了福音。国家食品药品监督管理总局规定,对于医疗器械既要评价其安全性,又要评价有效性。“目前,我们通常仅能评价它的有效性。由于参加一项临床实验的病人数量十分有限,因此还很难评估低发生率的安全性风险。”李卫说,大数据的出现使安全性评价成为可能。“通过海量数据,我们能看到所有用过这种产品的病人情况。”
不仅如此,大数据还为新药研发带来了曙光。“国内外医药公司现在都面临着巨大的研发困境,而这些困境如临床实验数据问题,可以用大数据解决。”安必奇(天津)生物科技有限公司总经理章文羿说。
“沉默”的信息共享难
韦云是一名血液免疫方面的医生,也是北京市中医病案质控中心主任和北京中西医结合学会信息专业委员会主任委员。过去的15年里,她的工作一直与数据信息有关。正因如此,她看到了十多年来医疗大数据令人担忧的“沉默”。
在韦云看来,这样的“沉默”是数据利用率不高、共享机制缺失所导致的。“这些沉默的数据有没有用呢?有!但是,需要数据的单位得不到数据,有数据的单位又要保密。这是一个矛盾。”韦云感慨地说。
她表示,现在亟待建立一个打破共享障碍的机制。“我们不能要求别人共享,也不能让政府出台政策推进共享。但是,这几年的工作让我体会到,我们可以共同做研发、做项目、做课题,这种需求非常多。”
就在几天前,中科院金融科技中心首席科学家刘世平受上海交通大学邀请,作了一场关于医疗大数据的报告。在与来自上海交通大学12个附属医院的专家交流后,他发现,他们对于数据的收集和共享抱有强烈的愿望。
对于药物研发企业来说,数据共享更为重要。“在这方面,我们还是要向美国学习。美国已经有公司将临床数据综合起来,分析得出更好的建议。”章文羿说。
医疗数据像块“蜂窝煤”
对于医疗领域来说,13亿人是一个宝贵的证据库。“作为证据输入国,我国病人很多,就好像拥有了广袤的麦田。但要把面粉变成餐桌上的面包,还需要面粉加工平台,利用技术手段建立一个数据收集、加工、分析和统计平台。”北京协和医院主任医师田新平说。
当下,尽管我国拥有海量的大数据,但缺乏有效的加工分析能力,其中最大的干扰因素在于数据标准不统一。在专家看来,目前我国医疗大数据就像一大块“蜂窝煤”。“数据的收集和整理缺乏统一的标准,同一个产品线是通的,但不同的产品线是不通的。”刘世平说。
韦云表示,我国医疗数据化的标准可谓“百花齐放”。“每家医院的信息化工作都涉及几十个厂家,每个厂家的数据、标准、采集、存储都不一样。因此,即便是在一家医院,都会出现很多孤岛,更别说整个医疗行业了。”韦云说。
“各家医院信息系统的标准、接口都不同,这成为利用率低、共享难的原因之一。”李卫说。
不仅如此,数据种类的多样化也为数据标准的制定和应用带来了挑战。“我们以前能处理的数据大部分是结构化的文本数据,但对于非结构化的音视频数据都很难处理。”
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在神经网络模型设计中,“隐藏层层数” 是决定模型能力与效率的核心参数之一 —— 层数过少,模型可能 “欠拟合”(无法捕捉数据 ...
2025-10-14在数字化浪潮中,数据分析师已成为企业 “从数据中挖掘价值” 的核心角色 —— 他们既要能从海量数据中提取有效信息,又要能将分 ...
2025-10-14在企业数据驱动的实践中,“指标混乱” 是最常见的痛点:运营部门说 “复购率 15%”,产品部门说 “复购率 8%”,实则是两者对 ...
2025-10-14在手游行业,“次日留存率” 是衡量一款游戏生死的 “第一道关卡”—— 它不仅反映了玩家对游戏的初始接受度,更直接决定了后续 ...
2025-10-13分库分表,为何而生? 在信息技术发展的早期阶段,数据量相对较小,业务逻辑也较为简单,单库单表的数据库架构就能够满足大多数 ...
2025-10-13在企业数字化转型过程中,“数据孤岛” 是普遍面临的痛点:用户数据散落在 APP 日志、注册系统、客服记录中,订单数据分散在交易 ...
2025-10-13在数字化时代,用户的每一次行为 —— 从电商平台的 “浏览→加购→购买”,到视频 APP 的 “打开→搜索→观看→收藏”,再到银 ...
2025-10-11在机器学习建模流程中,“特征重要性分析” 是连接 “数据” 与 “业务” 的关键桥梁 —— 它不仅能帮我们筛选冗余特征、提升模 ...
2025-10-11在企业的数据体系中,未经分类的数据如同 “杂乱无章的仓库”—— 用户行为日志、订单记录、商品信息混杂存储,CDA(Certified D ...
2025-10-11在 SQL Server 数据库操作中,“数据类型转换” 是高频需求 —— 无论是将字符串格式的日期转为datetime用于筛选,还是将数值转 ...
2025-10-10在科研攻关、工业优化、产品开发中,正交试验(Orthogonal Experiment)因 “用少量试验覆盖多因素多水平组合” 的高效性,成为 ...
2025-10-10在企业数据量从 “GB 级” 迈向 “PB 级” 的过程中,“数据混乱” 的痛点逐渐从 “隐性问题” 变为 “显性瓶颈”:各部门数据口 ...
2025-10-10在深度学习中,“模型如何从错误中学习” 是最关键的问题 —— 而损失函数与反向传播正是回答这一问题的核心技术:损失函数负责 ...
2025-10-09本文将从 “检验本质” 切入,拆解两种方法的核心适用条件、场景边界与实战选择逻辑,结合医学、工业、教育领域的案例,让你明确 ...
2025-10-09在 CDA 数据分析师的日常工作中,常会遇到这样的困惑:某电商平台 11 月 GMV 同比增长 20%,但究竟是 “长期趋势自然增长”,还 ...
2025-10-09Pandas 选取特定值所在行:6 类核心方法与实战指南 在使用 pandas 处理结构化数据时,“选取特定值所在的行” 是最高频的操作之 ...
2025-09-30球面卷积神经网络(SCNN) 为解决这一痛点,球面卷积神经网络(Spherical Convolutional Neural Network, SCNN) 应运而生。它通 ...
2025-09-30在企业日常运营中,“未来会怎样” 是决策者最关心的问题 —— 电商平台想知道 “下月销量能否达标”,金融机构想预判 “下周股 ...
2025-09-30Excel 能做聚类分析吗?基础方法、进阶技巧与场景边界 在数据分析领域,聚类分析是 “无监督学习” 的核心技术 —— 无需预设分 ...
2025-09-29XGBoost 决策树:原理、优化与工业级实战指南 在机器学习领域,决策树因 “可解释性强、处理非线性关系能力突出” 成为基础模型 ...
2025-09-29