京公网安备 11010802034615号
经营许可证编号:京B2-20210330
健康云上如何进行大数据的挖掘与分析(一)
本文旨在介绍区域医疗信息系统建设和大数据分析技术的发展,并总结出健康云上的大数据分析面临的特殊挑战和提出初步解决方案。
一、健康云的兴起
随着我国经济持续稳定的发展和现代科技的日益进步,越来越多的人们开始重点关注自身健康。在满足日常工作和生活的需求之外,规律的健身休闲活动、年度体检、健康饮食已经成为越来越普遍的想象。与此同时,随着国家新医改政策的颁布和实施,与健康直接相关的医疗行业也正在迅猛发展。这里重点介绍一下我国医疗行业IT解决方案市场呈现的发展趋势:
1、 渐增的多样医疗数据源:医疗数据的生成和采集已经不再仅局限于医院这个单一环境。它还可以来自于体检中心、社区/乡镇卫生院、私人诊所、实验室检验中心、急救中心、家庭,随着物联网(IoT, Internet of Things)相关技术的发展,我们甚至可以说:个人医疗数据可以采自于任何适合的地方。
2、 医疗数据的高度集中化:区域医疗信息系统(RHIS, Regional Health Information System)将逐步取代现有的基于医院的信息系统。并且,它将更广泛的覆盖一个特定区域内的所有医院、社区、急救中心、体检中心、实验室检验中心、社会保险机构等。居民个人来自各个数据源的全周期医疗数据将集中保存在统一的区域数据中心中。医疗数据将不再只是某家医院独享的资源,而是与整个区域中的所有医疗机构共享,甚至可以与更上层的大区域级、国家级信息系统进行数据交换。
3、 从医疗信息系统到医疗信息服务:区域医疗信息系统的逐步建立将使先进的医疗信息服务的设计和开发变得更加便捷。例如:流行病分析、公共卫生事件预测、临床决策支持、慢性病管理、个性化的健康照护计划、日常卫生保健管理等。其原因是因为这些信息服务必须建立在数据集中化的基础上。这些服务的受众群体将是整个社会。
正是如上所述的发展趋势使得“健康云(Healthcare Cloud)”的建立才会成为可能。试想一下:在不久的将来,我们可以通过手机统一查询在不同医院的就诊记录、生化检验结果、处方和收费清单;慢性病患者在家中可以自测血压、血糖等指标并通过无线网络上传到区域医疗数据中心,医生也可以远程分析患者自测数据判断其病情发展;大量的知识和规则从海量数据中自动提取出来,并用来协助社区及基层卫生机构的初级医生对患者作出准确的诊断和用药决策;各个社区居民的医疗数据将会自动汇总,并进行统计分析,用以进行流行病、慢性病的自动筛查、趋势分析和爆发预警,为公共卫生机构制定防治干预计划和行动提供有力的依据和参考;患者的症状、生命体征、检验检测结果、医疗影像、诊断、处方、医嘱、手术、住院和账单等全周期数据将会进行全方位的跟踪和分析,为新药开发、新治疗方案的设计提供支持。上述这些事例都将是我们通过健康云可以逐步实现的。
当然,健康云不是一天就可以建成的,这将是个阶段性的工程。除了国家政策和地方支持等外围因素之外,云计算和大数据技术将会起决定性作用。从构建底层云基础架构、云存储方案,到中层的云计算平台,最后到上层的云应用服务设计和开发,至少需要3~5年的长期规划。其中,大数据分析部分更是纵向贯穿于云基础架构、云平台和云服务三层,需要整体设计和逐步实施。基于现有技术和需求,在本文中,我们暂且把健康云简化定义为:基于区域医疗信息系统的医疗信息服务,并重点关注1~3年的市场需求。
二、大数据分析技术的发展
区域医疗信息系统中的医疗数据是典型的大数据。我们知道所谓的“大数据”并不只是数量上的“大”。在此,我们简单套用一下大数据的4V(Volume,Velocity,Variety,Value)定义:
1、 Volume:区域医疗数据通常是来自于拥有上百万人口和上百家医疗机构的区域,并且数据量持续增长。按照医疗行业的相关规定,一个患者的数据通常需要保留50年以上。我们可以想象这是多么巨大的数据量。
2、 Velocity:医疗信息服务中可能包含大量在线或实时数据分析处理的需求。例如:临床决策支持中的诊断和用药建议、流行病分析报表生成、健康指标预警等。
3、 Variety:医疗数据通常会包含各种结构化数据表、非(半)结构化文本文档(XML和叙述文本)、医疗影像等多种多样的数据存储形式。
4、 Value:医疗数据的价值不必多说,它不仅与我们个人生活息息相关,更可用于国家乃至全球的疾病防控、新药研发和顽疾攻克。
近年来,在卫生部的领导下和国家财政支出的支持下,绝大多数的三甲医院和部分二级医院已经先后建立了先进的数字化信息系统和电子健康档案系统。但至今为止,大部分系统和数据仍然只限于内部使用。据了解,2010年底,卫生部完成了“十二五”卫生信息化建设工程规划编制工作,初步确定了我国卫生信息化建设路线图,简称“3521工程”,即建设国家级、省级和地市级三级卫生信息平台,加强公共卫生、医疗服务、新农合、基本药物制度、综合管理5项业务应用,建设健康档案和电子病历2个基础数据库和1个专用网络建设。由此可看出,今后的几年,随着云计算技术的成熟和实用化,大规模区域医疗信息系统和大型数据中心的建立将逐步展开。然而,随着海量医疗数据被保存下来,一个棘手的问题出现了:我们如何通过高效的分析这些数据来提供有价值的服务?
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据仓库与数据分析体系中,维度表与事实表是构建结构化数据模型的核心组件,二者如同“骨架”与“血肉”,协同支撑起各类业务 ...
2026-01-16在游戏行业“存量竞争”的当下,玩家留存率直接决定游戏的生命周期与商业价值。一款游戏即便拥有出色的画面与玩法,若无法精准识 ...
2026-01-16为配合CDA考试中心的 2025 版 CDA Level III 认证新大纲落地,CDA 网校正式推出新大纲更新后的第一套官方模拟题。该模拟题严格遵 ...
2026-01-16在数据驱动决策的时代,数据分析已成为企业运营、产品优化、业务增长的核心工具。但实际工作中,很多数据分析项目看似流程完整, ...
2026-01-15在CDA(Certified Data Analyst)数据分析师的日常工作中,“高维数据处理”是高频痛点——比如用户画像包含“浏览次数、停留时 ...
2026-01-15在教育测量与评价领域,百分制考试成绩的分布规律是评估教学效果、优化命题设计的核心依据,而正态分布则是其中最具代表性的分布 ...
2026-01-15在用户从“接触产品”到“完成核心目标”的全链路中,流失是必然存在的——电商用户可能“浏览商品却未下单”,APP新用户可能“ ...
2026-01-14在产品增长的核心指标体系中,次日留存率是当之无愧的“入门级关键指标”——它直接反映用户对产品的首次体验反馈,是判断产品是 ...
2026-01-14在CDA(Certified Data Analyst)数据分析师的业务实操中,“分类预测”是高频核心需求——比如“预测用户是否会购买商品”“判 ...
2026-01-14在数字化时代,用户的每一次操作——无论是电商平台的“浏览-加购-下单”、APP的“登录-点击-留存”,还是金融产品的“注册-实名 ...
2026-01-13在数据驱动决策的时代,“数据质量决定分析价值”已成为行业共识。数据库、日志系统、第三方平台等渠道采集的原始数据,往往存在 ...
2026-01-13在CDA(Certified Data Analyst)数据分析师的核心能力体系中,“通过数据建立模型、实现预测与归因”是进阶关键——比如“预测 ...
2026-01-13在企业数字化转型过程中,业务模型与数据模型是两大核心支撑体系:业务模型承载“业务应该如何运转”的逻辑,数据模型解决“数据 ...
2026-01-12当前手游市场进入存量竞争时代,“拉新难、留存更难”成为行业普遍痛点。对于手游产品而言,用户留存率不仅直接决定产品的生命周 ...
2026-01-12在CDA(Certified Data Analyst)数据分析师的日常工作中,“挖掘变量间的关联关系”是高频核心需求——比如判断“用户停留时长 ...
2026-01-12在存量竞争时代,用户流失率直接影响企业的营收与市场竞争力。无论是电商、互联网服务还是金融行业,提前精准预测潜在流失用户, ...
2026-01-09在量化投资领域,多因子选股是主流的选股策略之一——其核心逻辑是通过挖掘影响股票未来收益的各类因子(如估值、成长、盈利、流 ...
2026-01-09在CDA(Certified Data Analyst)数据分析师的工作场景中,分类型变量的关联分析是高频需求——例如“用户性别与商品偏好是否相 ...
2026-01-09数据库中的历史数据,是企业运营过程中沉淀的核心资产——包含用户行为轨迹、业务交易记录、产品迭代日志、市场活动效果等多维度 ...
2026-01-08在电商行业竞争日趋激烈的当下,数据已成为驱动业务增长的核心引擎。电商公司的数据分析师,不仅是数据的“解读官”,更是业务的 ...
2026-01-08