京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据如何赋予医疗行业最大价值?
当在医院看医生的时候,我们信任医护人员的专业知识,相信他们会根据我们的情况以行之有效的科学方法做出处理,这被称为循证医学(EBM)。它的意思是,医生们开具的处方和选择的处理方式是在临床研究中已经被验证过,是正确的、可行的。
虽然“循证医学”这个词只能追溯到20世纪90年代初,但这一概念却是古时留下来的。对照临床试验早在20世纪40年代早期就已经进行过了,临床知识和专业知识也早已在医学杂志和教科书中被传播。(事实上,最古老的的医学杂志至今仍在运转中,The New England Journal of Medicine,成立于1812年,比首次临床试验更早,第一次临床试验在1747年进行的,是为水手们进行坏血病的治疗。)
临床试验和研究均针对疾病、健康和可以缓解症状或彻底消除疾病的治疗方法的研究,他们不断探索哪种治疗方法能有效的治疗哪些疾病,以及病人接受治疗后的效果。在世界各地,循证医学是医疗提供者所依照的准则。但是在大数据时代,这可能会被改变。
最初,小团体在测试新的治疗方法时会进行临床试验,以验证所用方法的治疗效果,并确定有何副作用。当一个临床试验有希望成功时,它就会被扩大到更多的人群中。一般进行此类实验时,会将新的方法独立于其他方法进行试验,将患者分成不同的组,每个组进行不同的治疗。此分配过程为随机分配,病人会随机分到不同的组中。
为了保障参与者的权利和提高试验的可靠性,临床试验必须符合严格的科学标准。然而,这并不是说就没有方法上的缺陷和风险存在,且在临床试验中,以小型群体为样本所得出的结果,并不能完全代表更广大的群体。而这正是大数据可以为医学提供助力的地方。通过挖掘世界上经过实践的临床资料,也就是目前所有的病人医疗记录:病人的实际情况、他被什么治疗手段治疗过、最后的效果如何,我们可以得到很多治疗病人的方法。
Apixio是一个人工智能计算机公司,总部位于加利福尼亚,它坚定的着眼于为患者者提供医疗服务,在实践研究基础上提供单独个性化定制服务。Apixio的首席执行官Darren Schulte解释道,“我们的系统可以从医学实践中学习更多的东西,通过计算处理来改进我们的临床护理方法。这其实更像一个‘医疗保健学习系统’。对于什么方法有用,什么方法没用,我们会从真实世界不断更新的数据中获得,如此会更加准确。”
80%有关患者的医疗和临床资料都是非结构化数据,如医师的书面笔记、咨询记录、放射科资料、病理分析结果以及从医院的出院记录等等。
Schulte医生在成为Apixio的CEO之前是任其首席医疗官,他说,“如果我们想学习如何更好的照顾病人,了解普遍人群的健康状况,我们需要从这些非结构化数据中找寻研究,才能得到不一样的结果。”
电子健康档案(EHR)存在已久,但它们是以不同的格式存在于不同的系统中,并不是直接为我们思考分析而设计的。所以,在Apixio分析如此多种类的数据之前,他们需要先从各种来源中提取数据(如家庭医生诊所、医院、政府的医疗记录等等)。然后,再将这些信息转换成计算机可以分析的格式。医生的笔记有很多不同的格式,一些为手写,一些事扫描的PDF文件,所以Apixio使用OCR(光学字符识别)技术来将这些创建成文本信息,以供电脑阅读理解。
达到个体分析水平的数据可以创建一个患者的数据模型,将大量人口的模型汇总后,就能较为准确的从更大范围中获得疾病的患病率和其治疗模式等。
Schulte解释道,“我们创建了一个‘病人对象(patient object)’,其本质上是使用从文本处理、文本挖掘和编码中挖掘出的数据,建立的医疗数据框架集合。通过创建这些个体资料,并将相似的个体资料分组,我们可以判断哪些方案能够对这个人有用,哪些没用,等等这些基础个性化医疗方面的问题。”
然而,如何让医疗保健提供者和健康保险共享出数据,是一个很大的挑战,Apixio通过确保获得数据后自身所能产出的价值,才克服这一困难,得到入口。正如Schulte所说,“除非你能解决目前的关键问题,这些组织才会给你提供访问真实数据的入口。”因此,重点是实际结果和能够解决问题,而不是炒作大数据概念。Schulte说,“医院的CIO们通常看不到很多正在被大数据解决的实际问题。他们看到的更多是无法为其提供帮助的,华而不实的仪表盘。而实际对他们有帮助的是解决现在存在的问题。”
另一个巨大的挑战是,你必须确保这些涉及到病人健康数据的资料是安全的,特别是在一些健康数据泄露事件被曝光之后。2014年,被盗医疗数据在所有被盗数据中所占比例高达43%,而医疗部门也意识到了自2010年起医疗被盗数据的大幅增加(远超过企业或政府部门)。Schulte指出,数据安全就相当于“赌注”,它是在医疗大数据领域进行相关动作的必备基础,“在订立每一个新合同之前,我们都必须向对方证明我们的安全性。”病人的数据必须在存储和传输过程中加密,Apixio从不公开个人健康信息(PHI),除非是由Apixio工作人员在绝对有需要时访问。
那么,实践证明医学是否能够代替循证医学,成为医疗保健行业的黄金准则?也许不会这样。但毫无疑问,我们即将有新的方式去了解、处理和预防疾病,这一点十分令人兴奋。正如Schulte所说,“从医疗保健的方式来看,我们正处于一个全新的世界,这种方式以数据洞察力为驱动,更加精准熟练。”融合了循证医学和实践医学的未来,医生可能有能力为病人提供最好的治疗结果,这正是所有的医疗专业人士期望来到的一天。
CDA学员免费下载查看报告全文:2026全球数智化人才指数报告【CDA数据科学研究院】.pdf
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数字化时代,数据已成为企业决策的核心驱动力,数据分析与数据挖掘作为解锁数据价值的关键手段,广泛应用于互联网、金融、医疗 ...
2026-04-17在数据处理、后端开发、报表生成与自动化脚本中,将 SQL 查询结果转换为字符串是一项高频且实用的操作。无论是拼接多行数据为逗 ...
2026-04-17面对一份上万行的销售明细表,要快速回答“哪个地区卖得最好”“哪款产品增长最快”“不同客户类型的购买力如何”——这些看似复 ...
2026-04-17数据分析师一天的工作,80% 的时间围绕表格结构数据展开。从一张销售明细表到一份完整的分析报告,表格结构数据贯穿始终。但你真 ...
2026-04-16在机器学习无监督学习领域,Kmeans聚类因其原理简洁、计算高效、可扩展性强的优势,成为数据聚类任务中的主流算法,广泛应用于用 ...
2026-04-16在机器学习建模实践中,特征工程是决定模型性能的核心环节之一。面对高维数据集,冗余特征、无关特征不仅会增加模型训练成本、延 ...
2026-04-16在数字化时代,用户是产品的核心资产,用户运营的本质的是通过科学的指标监测、分析与优化,实现“拉新、促活、留存、转化、复购 ...
2026-04-15在企业数字化转型、系统架构设计、数据治理与AI落地过程中,数据模型、本体模型、业务模型是三大核心基础模型,三者相互支撑、各 ...
2026-04-15数据分析师的一天,80%的时间花在表格数据上,但80%的坑也踩在表格数据上。 如果你分不清数值型和文本型的区别,不知道数据从哪 ...
2026-04-15在人工智能与机器学习落地过程中,模型质量直接决定了应用效果的优劣——无论是分类、回归、生成式模型,还是推荐、预测类模型, ...
2026-04-14在Python网络编程、接口测试、爬虫开发等场景中,HTTP请求的发送与响应处理是核心需求。Requests库作为Python生态中最流行的HTTP ...
2026-04-14 很多新人学完Python、SQL,拿到一张Excel表还是不知从何下手。 其实,90%的商业分析问题,都藏在表格的结构里。 ” 引言:为 ...
2026-04-14在回归分析中,因子(即自变量)的筛选是构建高效、可靠回归模型的核心步骤——实际分析场景中,往往存在多个候选因子,其中部分 ...
2026-04-13在机器学习模型开发过程中,过拟合是制约模型泛化能力的核心痛点——模型过度学习训练数据中的噪声与偶然细节,导致在训练集上表 ...
2026-04-13在数据驱动商业升级的今天,商业数据分析已成为企业精细化运营、科学决策的核心手段,而一套规范、高效的商业数据分析总体流程, ...
2026-04-13主讲人简介 张冲,海归统计学硕士,CDA 认证数据分析师,前云南白药集团资深数据分析师,自媒体 Python 讲师,全网课程播放量破 ...
2026-04-13在数据可视化与业务分析中,同比分析是衡量业务发展趋势、识别周期波动的核心手段,其核心逻辑是将当前周期数据与上年同期数据进 ...
2026-04-13在机器学习模型的落地应用中,预测精度并非衡量模型可靠性的唯一标准,不确定性分析同样不可或缺。尤其是在医疗诊断、自动驾驶、 ...
2026-04-10数据本身是沉默的,唯有通过有效的呈现方式,才能让其背后的规律、趋势与价值被看见、被理解、被运用。统计制图(数据可视化)作 ...
2026-04-10在全球化深度发展的今天,跨文化传播已成为连接不同文明、促进多元共生的核心纽带,其研究核心围绕“信息传递、文化解读、意义建 ...
2026-04-09