
大数据如何赋予医疗行业最大价值?
当在医院看医生的时候,我们信任医护人员的专业知识,相信他们会根据我们的情况以行之有效的科学方法做出处理,这被称为循证医学(EBM)。它的意思是,医生们开具的处方和选择的处理方式是在临床研究中已经被验证过,是正确的、可行的。
虽然“循证医学”这个词只能追溯到20世纪90年代初,但这一概念却是古时留下来的。对照临床试验早在20世纪40年代早期就已经进行过了,临床知识和专业知识也早已在医学杂志和教科书中被传播。(事实上,最古老的的医学杂志至今仍在运转中,The New England Journal of Medicine,成立于1812年,比首次临床试验更早,第一次临床试验在1747年进行的,是为水手们进行坏血病的治疗。)
临床试验和研究均针对疾病、健康和可以缓解症状或彻底消除疾病的治疗方法的研究,他们不断探索哪种治疗方法能有效的治疗哪些疾病,以及病人接受治疗后的效果。在世界各地,循证医学是医疗提供者所依照的准则。但是在大数据时代,这可能会被改变。
最初,小团体在测试新的治疗方法时会进行临床试验,以验证所用方法的治疗效果,并确定有何副作用。当一个临床试验有希望成功时,它就会被扩大到更多的人群中。一般进行此类实验时,会将新的方法独立于其他方法进行试验,将患者分成不同的组,每个组进行不同的治疗。此分配过程为随机分配,病人会随机分到不同的组中。
为了保障参与者的权利和提高试验的可靠性,临床试验必须符合严格的科学标准。然而,这并不是说就没有方法上的缺陷和风险存在,且在临床试验中,以小型群体为样本所得出的结果,并不能完全代表更广大的群体。而这正是大数据可以为医学提供助力的地方。通过挖掘世界上经过实践的临床资料,也就是目前所有的病人医疗记录:病人的实际情况、他被什么治疗手段治疗过、最后的效果如何,我们可以得到很多治疗病人的方法。
Apixio是一个人工智能计算机公司,总部位于加利福尼亚,它坚定的着眼于为患者者提供医疗服务,在实践研究基础上提供单独个性化定制服务。Apixio的首席执行官Darren Schulte解释道,“我们的系统可以从医学实践中学习更多的东西,通过计算处理来改进我们的临床护理方法。这其实更像一个‘医疗保健学习系统’。对于什么方法有用,什么方法没用,我们会从真实世界不断更新的数据中获得,如此会更加准确。”
80%有关患者的医疗和临床资料都是非结构化数据,如医师的书面笔记、咨询记录、放射科资料、病理分析结果以及从医院的出院记录等等。
Schulte医生在成为Apixio的CEO之前是任其首席医疗官,他说,“如果我们想学习如何更好的照顾病人,了解普遍人群的健康状况,我们需要从这些非结构化数据中找寻研究,才能得到不一样的结果。”
电子健康档案(EHR)存在已久,但它们是以不同的格式存在于不同的系统中,并不是直接为我们思考分析而设计的。所以,在Apixio分析如此多种类的数据之前,他们需要先从各种来源中提取数据(如家庭医生诊所、医院、政府的医疗记录等等)。然后,再将这些信息转换成计算机可以分析的格式。医生的笔记有很多不同的格式,一些为手写,一些事扫描的PDF文件,所以Apixio使用OCR(光学字符识别)技术来将这些创建成文本信息,以供电脑阅读理解。
达到个体分析水平的数据可以创建一个患者的数据模型,将大量人口的模型汇总后,就能较为准确的从更大范围中获得疾病的患病率和其治疗模式等。
Schulte解释道,“我们创建了一个‘病人对象(patient object)’,其本质上是使用从文本处理、文本挖掘和编码中挖掘出的数据,建立的医疗数据框架集合。通过创建这些个体资料,并将相似的个体资料分组,我们可以判断哪些方案能够对这个人有用,哪些没用,等等这些基础个性化医疗方面的问题。”
然而,如何让医疗保健提供者和健康保险共享出数据,是一个很大的挑战,Apixio通过确保获得数据后自身所能产出的价值,才克服这一困难,得到入口。正如Schulte所说,“除非你能解决目前的关键问题,这些组织才会给你提供访问真实数据的入口。”因此,重点是实际结果和能够解决问题,而不是炒作大数据概念。Schulte说,“医院的CIO们通常看不到很多正在被大数据解决的实际问题。他们看到的更多是无法为其提供帮助的,华而不实的仪表盘。而实际对他们有帮助的是解决现在存在的问题。”
另一个巨大的挑战是,你必须确保这些涉及到病人健康数据的资料是安全的,特别是在一些健康数据泄露事件被曝光之后。2014年,被盗医疗数据在所有被盗数据中所占比例高达43%,而医疗部门也意识到了自2010年起医疗被盗数据的大幅增加(远超过企业或政府部门)。Schulte指出,数据安全就相当于“赌注”,它是在医疗大数据领域进行相关动作的必备基础,“在订立每一个新合同之前,我们都必须向对方证明我们的安全性。”病人的数据必须在存储和传输过程中加密,Apixio从不公开个人健康信息(PHI),除非是由Apixio工作人员在绝对有需要时访问。
那么,实践证明医学是否能够代替循证医学,成为医疗保健行业的黄金准则?也许不会这样。但毫无疑问,我们即将有新的方式去了解、处理和预防疾病,这一点十分令人兴奋。正如Schulte所说,“从医疗保健的方式来看,我们正处于一个全新的世界,这种方式以数据洞察力为驱动,更加精准熟练。”融合了循证医学和实践医学的未来,医生可能有能力为病人提供最好的治疗结果,这正是所有的医疗专业人士期望来到的一天。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在大模型从实验室走向生产环境的过程中,“稳定性” 是决定其能否实用的关键 —— 一个在单轮测试中表现优异的模型,若在高并发 ...
2025-10-15在机器学习入门领域,“鸢尾花数据集(Iris Dataset)” 是理解 “特征值” 与 “目标值” 的最佳案例 —— 它结构清晰、维度适 ...
2025-10-15在数据驱动的业务场景中,零散的指标(如 “GMV”“复购率”)就像 “散落的零件”,无法支撑系统性决策;而科学的指标体系,则 ...
2025-10-15在神经网络模型设计中,“隐藏层层数” 是决定模型能力与效率的核心参数之一 —— 层数过少,模型可能 “欠拟合”(无法捕捉数据 ...
2025-10-14在数字化浪潮中,数据分析师已成为企业 “从数据中挖掘价值” 的核心角色 —— 他们既要能从海量数据中提取有效信息,又要能将分 ...
2025-10-14在企业数据驱动的实践中,“指标混乱” 是最常见的痛点:运营部门说 “复购率 15%”,产品部门说 “复购率 8%”,实则是两者对 ...
2025-10-14在手游行业,“次日留存率” 是衡量一款游戏生死的 “第一道关卡”—— 它不仅反映了玩家对游戏的初始接受度,更直接决定了后续 ...
2025-10-13分库分表,为何而生? 在信息技术发展的早期阶段,数据量相对较小,业务逻辑也较为简单,单库单表的数据库架构就能够满足大多数 ...
2025-10-13在企业数字化转型过程中,“数据孤岛” 是普遍面临的痛点:用户数据散落在 APP 日志、注册系统、客服记录中,订单数据分散在交易 ...
2025-10-13在数字化时代,用户的每一次行为 —— 从电商平台的 “浏览→加购→购买”,到视频 APP 的 “打开→搜索→观看→收藏”,再到银 ...
2025-10-11在机器学习建模流程中,“特征重要性分析” 是连接 “数据” 与 “业务” 的关键桥梁 —— 它不仅能帮我们筛选冗余特征、提升模 ...
2025-10-11在企业的数据体系中,未经分类的数据如同 “杂乱无章的仓库”—— 用户行为日志、订单记录、商品信息混杂存储,CDA(Certified D ...
2025-10-11在 SQL Server 数据库操作中,“数据类型转换” 是高频需求 —— 无论是将字符串格式的日期转为datetime用于筛选,还是将数值转 ...
2025-10-10在科研攻关、工业优化、产品开发中,正交试验(Orthogonal Experiment)因 “用少量试验覆盖多因素多水平组合” 的高效性,成为 ...
2025-10-10在企业数据量从 “GB 级” 迈向 “PB 级” 的过程中,“数据混乱” 的痛点逐渐从 “隐性问题” 变为 “显性瓶颈”:各部门数据口 ...
2025-10-10在深度学习中,“模型如何从错误中学习” 是最关键的问题 —— 而损失函数与反向传播正是回答这一问题的核心技术:损失函数负责 ...
2025-10-09本文将从 “检验本质” 切入,拆解两种方法的核心适用条件、场景边界与实战选择逻辑,结合医学、工业、教育领域的案例,让你明确 ...
2025-10-09在 CDA 数据分析师的日常工作中,常会遇到这样的困惑:某电商平台 11 月 GMV 同比增长 20%,但究竟是 “长期趋势自然增长”,还 ...
2025-10-09Pandas 选取特定值所在行:6 类核心方法与实战指南 在使用 pandas 处理结构化数据时,“选取特定值所在的行” 是最高频的操作之 ...
2025-09-30球面卷积神经网络(SCNN) 为解决这一痛点,球面卷积神经网络(Spherical Convolutional Neural Network, SCNN) 应运而生。它通 ...
2025-09-30