京公网安备 11010802034615号
经营许可证编号:京B2-20210330
2.4 医疗健康大数据特点
医疗大数据除了包含了大数据5 个V 的特点之外,还有多态性、时效性、不完整性、冗余性、隐私性等特点[10]。多态性指医师对病人的描述具有主观性而难以达到标准化;时效性指数据仅在一段时间内有用;不完整性指医疗分析对病人的状态描述有偏差和缺失;冗余性指医疗数据存在大量重复或无关的信息;隐私性指用户的医疗健康数据具有高度的隐私性,泄漏信息会造成严重后果。
3 医疗健康大数据应用举例
信息化的医疗数据、医疗研究数据、病人特征数据以及移动设备、社交网络和传感器产生的医疗健康相关的数据为医疗健康从业人员提供了新的思路,利用大数据技术可以从中发现潜在的关系、模式,从而帮助医师提高诊断精度、预测治疗效果、降低医疗成本,帮助医药公司发现潜在的药物不良反应、帮助公共卫生部门及时发现潜在的流行病。下面将从公共卫生、药物副作用评估、治疗预测与降低医疗成本、辅助诊断与个性化治疗等几个方面介绍大数据的用处。
3.1 助力公共卫生检测
2009年,Google比美国疾病控制与预防中心提前1~ 2周预测到了甲型H1N1流感爆发,此事件震惊了医学界和计算机领域的科学家,Google的研究报告发表在Nature杂志上[11]。Google正是借助大数据技术从用户的相关搜索中预测到流感爆发。随后百度公司也上线了“百度疾病预测”借助用户搜索预测疾病爆发。借助大数据预测流感爆发分为主动收集和被动收集,被动收集利用用户周期提交的数据分析流感的当前状况和趋势,而主动收集则是利用用户在微博的推文、搜索引擎的记录进行分析预测。
FluNear You[12]借助用户周期提交的自我流感检测来预测流感的爆发。首先,用户在Flu Near You的网站上注册,随后每个星期用户将收到一封电子邮件,指引用户登录Flu Near You网站。在网站上,用户填写一份关于自己是否有流感症状的调查。最终Flu Near You收集信息并利用大数据技术生成目前流感疾病和未来流感疾病预测的可视化图表。
流感爆发初期,通常伴随着用户在搜索引擎搜索相关内容或在社交网络上发布相关内容,这些信息可以作为流行病爆发的初期预警[13,14]。参考文献[15]以用户在Twitter上的推文以及英国健康保健局发布的城市流感样病例率(influenza like illnessrate)为数据源,通过LASSO算法进行特征选择,选择推文关键字,建立未来数天流感样病例率的预测模型,取得了比较精确的结果。在疾病传播中,长时间与病原体接触会增加感染的几率,因此追踪人口接触信息以及人口位置信息将有助于了解流行病的行为[16,17]。参考文献[18]设计了一套使用智能手机自动收集人口位置信息与接触信息的应用。参考文献[19]将流行病数据源分为媒体(包括官方媒体)、移动设备、社交网络、Pro-Med邮件列表、实验室和医院数据,并根据不同数据来源设计了一套收集数据、分析数据、验证数据、数据可视化的系统,用以直观表现流行病的情况。
3.2 帮助发现药物副作用
药品上市后的不良反应检测一般依赖被动检测和主动检测。被动检测依赖于医生、患者、制药公司提供的不良反应报告。被动检测最大的问题是漏报,参考文献[20]认为94%的不良反应没有被报告。主动检测则是利用文本挖掘、数据挖掘技术从EHR、EMR、社交网络、搜索引擎中发现潜在药品导致不良反应事件[20]。参考文献[21]利用药品不良反应存在时间先后顺序,挖掘电子病例中可能存在的药物不良反应。参考文献[22]将引起不良反应的条件分为使用一种药品、两种药品、一种药品和病人的一种特点、一种药品和一种药品过敏事件,根据决策树、聚类等数据挖掘方法发现条件和不良反应结果的关系。当药物使用与不良反应存在低频率的因果关系时,一般的数据挖掘算法将难以分辨因果关系和偶然事件[23],参考文献[23]基于预认知决策模型(RPD model)设计了多种算法用以发现药品不良反应中的低频因果关系[23~25]。
3.3 助力治疗预测与降低医疗成本
目前,医疗健康行业成本高昂的部分原因来自医疗失误和医疗浪费。根据1998年美国医疗协会的报告,仅仅在美国,可以避免的医疗失误每年造成了98 000起死亡案例[26]。美国花在医疗健康上的费用超过1 700亿美元,而中国每年花费在医疗健康上的费用超过30 000亿元。在此背景下,多国通过改革医疗系统以减少医疗失误及医疗浪费,最终削减医疗开支。美国于2011年通过的关于医疗健康信息技术的HITECH法案宣布:决定投入500亿美元在5年内使用信息技术解决医疗行业存在的问题[27]。而中国在2009年宣布了花费1 200亿元的10年医疗系统改革计划的第一部分。
参考文献[28]中分析了澳大利亚的医疗保险行业,认为使用目前的验证技术无法有效发现医疗服务中存在的欺诈、滥用、浪费、错误等现象,原因在于旧的验证技术只关注单个病例,无法利用多个病例间的联系。作者以医疗账单为数据源,建立关于治疗费用、住院时间等数据的预测模型,使用数据挖掘技术发现账单中的异常数据;使用领域专家建立的规则库分析异常账单,发现其中可能存在的问题并给出警告。典型的应用环境包括医疗器材滥用、手术过程与病情诊断不符、过度收费等。提早检测出医疗过程中的问题将为国家保险机构、患者、私立保险机构节省大量花费。
3.4 辅助诊断
参考文献[29,30]认为患者的基因型、生活方式、身体特征、多重病患严重影响了治疗效果。提早根据患者的特征设计个性化的治疗方案将有助于降低成本,减少医疗事故。参考文献[31]认为通过挖掘用户基因信息和电子病例可以做到:根据患者基因信息和患者的其他特征预测各种治疗方案可能的副作用;选择更好的治疗方案,而不是尝试各种治疗方案;帮助用户预防疾病或削弱疾病的影响。之后,参考文献[31]设计了一套系统Mayo用来收集、存储个性化治疗所需要的数据,并为数据分析师提供分析数据的平台。参考文献[32]则通过分析病人的特征数据并匹配相似病例以帮助医师诊断。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数字化时代,数据已成为企业决策的核心驱动力,数据分析与数据挖掘作为解锁数据价值的关键手段,广泛应用于互联网、金融、医疗 ...
2026-04-17在数据处理、后端开发、报表生成与自动化脚本中,将 SQL 查询结果转换为字符串是一项高频且实用的操作。无论是拼接多行数据为逗 ...
2026-04-17面对一份上万行的销售明细表,要快速回答“哪个地区卖得最好”“哪款产品增长最快”“不同客户类型的购买力如何”——这些看似复 ...
2026-04-17数据分析师一天的工作,80% 的时间围绕表格结构数据展开。从一张销售明细表到一份完整的分析报告,表格结构数据贯穿始终。但你真 ...
2026-04-16在机器学习无监督学习领域,Kmeans聚类因其原理简洁、计算高效、可扩展性强的优势,成为数据聚类任务中的主流算法,广泛应用于用 ...
2026-04-16在机器学习建模实践中,特征工程是决定模型性能的核心环节之一。面对高维数据集,冗余特征、无关特征不仅会增加模型训练成本、延 ...
2026-04-16在数字化时代,用户是产品的核心资产,用户运营的本质的是通过科学的指标监测、分析与优化,实现“拉新、促活、留存、转化、复购 ...
2026-04-15在企业数字化转型、系统架构设计、数据治理与AI落地过程中,数据模型、本体模型、业务模型是三大核心基础模型,三者相互支撑、各 ...
2026-04-15数据分析师的一天,80%的时间花在表格数据上,但80%的坑也踩在表格数据上。 如果你分不清数值型和文本型的区别,不知道数据从哪 ...
2026-04-15在人工智能与机器学习落地过程中,模型质量直接决定了应用效果的优劣——无论是分类、回归、生成式模型,还是推荐、预测类模型, ...
2026-04-14在Python网络编程、接口测试、爬虫开发等场景中,HTTP请求的发送与响应处理是核心需求。Requests库作为Python生态中最流行的HTTP ...
2026-04-14 很多新人学完Python、SQL,拿到一张Excel表还是不知从何下手。 其实,90%的商业分析问题,都藏在表格的结构里。 ” 引言:为 ...
2026-04-14在回归分析中,因子(即自变量)的筛选是构建高效、可靠回归模型的核心步骤——实际分析场景中,往往存在多个候选因子,其中部分 ...
2026-04-13在机器学习模型开发过程中,过拟合是制约模型泛化能力的核心痛点——模型过度学习训练数据中的噪声与偶然细节,导致在训练集上表 ...
2026-04-13在数据驱动商业升级的今天,商业数据分析已成为企业精细化运营、科学决策的核心手段,而一套规范、高效的商业数据分析总体流程, ...
2026-04-13主讲人简介 张冲,海归统计学硕士,CDA 认证数据分析师,前云南白药集团资深数据分析师,自媒体 Python 讲师,全网课程播放量破 ...
2026-04-13在数据可视化与业务分析中,同比分析是衡量业务发展趋势、识别周期波动的核心手段,其核心逻辑是将当前周期数据与上年同期数据进 ...
2026-04-13在机器学习模型的落地应用中,预测精度并非衡量模型可靠性的唯一标准,不确定性分析同样不可或缺。尤其是在医疗诊断、自动驾驶、 ...
2026-04-10数据本身是沉默的,唯有通过有效的呈现方式,才能让其背后的规律、趋势与价值被看见、被理解、被运用。统计制图(数据可视化)作 ...
2026-04-10在全球化深度发展的今天,跨文化传播已成为连接不同文明、促进多元共生的核心纽带,其研究核心围绕“信息传递、文化解读、意义建 ...
2026-04-09