大数据挖掘在虚拟医药科研方面的思考-CDA数据分析师官网

热线电话：13121318867

大数据挖掘在虚拟医药科研方面的思考

2015-12-21

大数据挖掘在虚拟医药科研方面的思考

1.基于大数据挖掘的虚拟医药科研案例

数据挖掘发展到今天，按照时下的概念应该到了“大”数据挖掘的时代了。我们还是先从几个相关案例开始吧。

1.1 虚拟临床试验-大数据采集

我们首先来看这样一个案例。2011年06月，辉瑞制药有限公司宣布开展一项“虚拟”临床研究，该项研究是一个得到美国食品和药物管理局批准的试点项目，首字母缩写为“REMOTE”。“REMOTE”项目是在美国开展的第一项病人只需使用手机和互联网、而不用重复跑医院的临床研究，该项目的目标是要确定此类“虚拟”临床研究能否产生和传统临床研究一样的结果。而传统的临床研究要求病人住在医院附近，并且定期前往医院或诊所进行初次检查和多次后续检查。如果这一项目有效，那它可能意味着全美国的病人都能参加今后的许多医学研究。这样一来，原先的科研项目中未得到充分代表的群体将得以参加，数据收集速度将大大加快，而且成本也很可能会大幅下降，参与者退出的几率也很可能会降低不少。

从上例中，我们可以看到，利用互联网可以收集远远大于传统临床科研样本数目的超大量病人的临床数据，而且其中有些临床数据可能来自于更加便捷的可穿戴健康监测设备。如果这样的研究，在科研设计严谨、质量标准得到有效执行、各种误差得到有效控制的情况下，科研的效率和成果的可信度可以显著提高。正如辉瑞公司首席医疗官弗蕾达•刘易斯-霍尔所说的：“让更多样化的人群得以参与研究有可能会推动医学进步，并为更多的病人带来更好的疗效。”

1.2 虚拟药物临床试验-大数据挖掘

我们再来看另外一个案例。1992年，抗抑郁药物帕罗西汀（Paxil）获准上市；1996年，降胆固醇药物普拉固（Pravachol）正式开售。两种药品生产企业的研究证明：每种药物在单独服用时是有效且安全的。可是，患者要是同时服用两种药是否安全，没有人知道，甚至很少有人想过。美国斯坦福大学的研究人员应用数据挖掘技术分析了数万例患者的电子病历后，很快发现了一个出人意料的答案：同时服用两种药物的患者血糖含量较高。这对于糖尿病患者来说影响很大，过多的血糖对他们来说是一种严重的健康威胁！科学家还通过分析血糖检测结果和药物处方，来寻找隐藏的规律。

对于单个医生来说，他所经历的同时服用这两种药物的病人是很有限的，虽然其中可能有少数的糖尿病患者莫名其妙地血糖升高了，但医生很难意识到这是由于病人同时服用了Paxil和Pravachol造成的。因为这是一种掩藏在大数据中的隐含规律，如果不是有人有目的地专门研究Paxil和Pravachol联合用药的安全性的话，个体医生是很难揭示这个规律的。但是，临床药品成千上万，我们怎么可能对任意组合的两、三种药联合应用的安全性和有效性进行逐一研究呢？数据挖掘很可能是一种有效的、快速的、主动式的探索多种药联合应用问题的方法！

研究者不必再召集患者去做临床试验，那样做的话花费太大了。电子病历及其计算机应用的普及为医疗数据挖掘提供了新的机遇。科学家不再局限于通过召集志愿者来开展传统的课题研究，而是更多地从现实生活中的实验中，如日常的大量的临床案例中筛选数据并开展虚拟科研，这些并非来自计划的课题立项的实验数据保存在许多医院的医疗记录中。

类似本案例，应用数据技术使得研究人员可以找出在药物批准上市时无法预见的问题，例如一种药物可能对特定人群产生怎样的影响。另外，对医疗记录的数据挖掘不仅将为研究带来好处，还会提高医疗服务系统的效率。

1.3 虚拟药物靶标发现-知识发现

我们再看看这样的一类研究。通常新药研发的过程都比较漫长,投入巨大，风险也很高。有数据表明，新药研发的平均时间长达15年,平均耗费超过8亿美元。但是,由于药物疗效的不佳和毒副作用太高，使得许多药物的研发经常在临床阶段就失败了，造成了巨大的经济损失。作为药物研发的源头,药物靶标的发现和识别对药物的研发成功率具有举足轻重性的作用。随着生物信息技术的不断发展,以及蛋白质组学数据、化学基因组学数据的日益增长,应用数据挖掘技术结合传统生物实验技术,可为药物新靶标的发现提供新的技术手段,为靶标识别预测提供新的方法。构建药物靶标数据库，利用智能计算技术和数据挖掘技术对现有的药物靶标数据开展深入探索，以期发现新的药物靶标正是这样一类研究，我们也称之为药物靶标的知识发现。

传统的药物靶标的发现，通常大都是通过大量的、反复的生物化学实验来实现的，不仅成本高、效率低，成功率也很低，犹如瞎子摸象一样，不好掌握方向。而应用数据挖掘这一自动的、主动的、高效的探索技术，可以开展虚拟药物靶标发现，不仅大大加快了药物靶标发现的进程，而且大幅减少了生物化学实验的次数和成本，同时也提高了传统生化实验的成功率。

2. 数据挖掘在虚拟医药科研上的应用

大数据时代，医药研发面临更多的挑战和机遇，为了更好的节约研发成本，提高新药研发成功率，研发出更有竞争力的新药，可以应用数据挖掘技术开展虚拟医学科研和药物研究。数据挖掘在虚拟医药科研上的应用，可以总结为如下几个方面。

2.1 通过预测建模帮助制药公司降低研发成本提高研发效率。模型基于药物临床试验阶段之前的数据集及早期临床阶段的数据集，尽可能及时地预测临床结果。评价因素包括产品的安全性、有效性、潜在的副作用和整体的试验结果。通过预测建模可以降低医药产品公司的研发成本，在通过数据建模和分析预测药物临床结果后，可以暂缓研究次优的药物，或者停止在次优药物上的昂贵的临床试验。

2.2 通过挖掘病人数据，评估招募患者是否符合试验条件，从而加快临床试验进程，提出更有效的临床试验设计建议。例如: 通过聚类方法对患者群体进行聚类，寻找年龄、性别、病情、化验指标等方面的特征，判定是否满足试验条件，也可以根据这些特征更好的设立对照组。

2.3 分析临床试验数据和病人记录可以确定药品更多的适应症和发现副作用。在对临床试验数据和病人记录进行分析后，可以对药物进行重新定位，或者实现针对其他适应症的营销。通过关联分析等方法对试验数据进行挖掘可能会发现事先想不到一些成果，大大提高数据的利用程度。

2.4 实时或者近乎实时地收集不良反应报告可以促进药物警戒。药物警戒是上市药品的安全保障体系，对药物不良反应进行监测、评价和预防。通过聚类、关联等大数据挖掘手段分析药品不良反应的情况，用药、疾病、不良反应的表现，是否跟某种化学成分有关等。例如不良反应症状的聚类分析，化学成分与不良反应症状的关联分析等。另外在一些情况下，临床实验暗示出了一些情况但没有足够的统计数据去证明，现在基于临床试验大数据的分析可以给出证据。

2.5 针对性药物研发：通过对大型数据集(例如基因组数据)的分析发展个性化药物。这一应用考察遗传变异、对特定疾病的易感性和对特殊药物的反应的关系，然后在药物研发和用药过程中考虑个人的遗传变异因素。很多情况下，病人用同样的用药方案但是疗效却不一样，部分原因是遗传变异。针对同病种的不同的患者研发不同的用药，或者给出不同的用法。

2.6 对药物化学成分的组合和药理进行挖掘，激发研发人员的灵感。例如针对于中医药物研发，用数据挖掘手段对于中药方剂和症候进行分析研究，探讨方剂和针对症状之间的联系，从功效、归经、药性和药味等方面进行分类特征分析。

3. 虚拟药物临床试验分析系统

现在越来越多的临床科研和药物临床试验都是从日常的临床工作中生成的大数据中经过严格的条件筛选来提取数据的。正如我们在本文1.1和1.2中提到的案例一样，所谓虚拟药物临床试验，是以更广泛的临床数据采集，和从海量的医院电子化的病历中按照事先的设计需求经过严格的条件筛选来开展的，虽然是虚拟的方法而不是传统的方法，这种药物临床试验研究有样本代表更广泛、成本低、效率高、研究成果更丰富等优点。采用虚拟研究的方法可以完全替代某些传统的药物临床研究，也可以作为某些传统的药物临床研究的预试验或探索性研究，以使真正的药物临床研究工作多、快、好、省。我们现在来看一下虚拟药物临床试验分析系统是如何工作的。

3.1 虚拟药物研究的基本思路

1、建设药物临床试验数据仓库，充分整合和积累的临床数据和药物应用数据。

2、设计、选取药物临床试验的观察组样本与对照组样本。

3、应用数据挖掘技术探索药物对于疾病治疗的效果和产生的副作用。

4、应用统计学技术进行药物临床试验效果的推断和评价。

3.2 建立药物临床数据仓库

建设药物临床试验数据仓库有两种途径，一种是通过经典的药物临床试验设计来定制化和采集相关数据，传统的方法主要记录在纸质文档上，也有专门数据录入软件，这种方法采集的数据是按照预先设计进行的，直接形成药物临床试验的专用数据，但通常样本数据量不会太大；另外一种是将医院大量的、历史的临床用药数据进行抽取、变换、装载，然后充分整合积累的其他临床数据和药物应用数据，形成药物临床试验数据源，为生成药物临床试验数据提供支撑，这样的样本数据量可能很大，我们后面演示的方法就是采用种数据进行“虚拟”样本筛选和分析的。

3.3 药物临床试验样本设计

药物临床试验样本根据药物研究的需要可以有很多设计，例如单因素单水平设计，单因素两水平设计，单因素多水平设计，配对设计设计，区组设计设计，重复测量设计等。我们这里以两因素区组设计为例来介绍一下样本筛选。本例仅以方法演示为目的，不考虑严格的医学专业意义。

本研究的疾病为动脉硬化心脏病，处理因素为药物应用，共有三种药物，分别为倍他乐克、诺和灵、硝酸异山梨脂。区组因素为年龄，分了三个年龄段。观察指标为血钠。我们科研设计按照“三要素、四原则”进行数据筛选。所谓“三要素”是研究人群，处理因素和观察对象。所谓四原则是指随机、对照、重复、均衡等原则。按照如下图一的输入条件，可以将数据集筛选出来，然后再用统计分析工具进行统计分析。

3.4 药物临床数据挖掘

应用数据挖掘技术不仅可以提高药物临床数据的利用程度，而且可以探索和发现药物临床应用中的新的积极作用和新的消极作用。利用多种数据挖掘方法分析临床试验数据和病人的电子化数据，可以确定药物更多的适应症和发现未知的副作用。在对临床试验数据和病人记录进行挖掘分析后，可以对药物进行重新定位，或者实现针对其他适应症的推广应用。通过对药物试验数据进行挖掘可能会发现意想不到一些成果，大大提高数据的应用效益。

如本例，我们使用数据挖掘的方法深入研究药物对于实验室指标的影响。探索和发现药物临床应用中的正负影响，可以通过观察病人用药前后的很多医学特征和生理指标来进行，而观察更加客观的各种实验室指标是很多药物研究的必备设计之一。下面是一个应用倍他乐克药物治疗冠心病的研究，我们应用了数据挖掘的有关技术分析了倍他乐克的血药浓度的变化对病人各个实验室指标的影响，如下图二，显示了部分实验室指标的影响结果。

以上结果需要与临床医务人员以及药物研究人员共同探讨。在刨去了各种人为因素以及业务系统客观影响因素之后，我们可以发现先前未知的倍他乐克对病人生理指标的影响，其中有些影响在医学上可能是积极的，而有些影响在医学上可能是反面的。

3.5 统计分析设计

虚拟药物临床试验分析系统的统计分析模块，包含了药物研发中常用的统计分析方法，如T检验、方差分析、相关分析、回归分析、非参数检验等，设计思路按照统计学思维，首先对数据进行验证，根据验证结果选择统计分析方法。下面我们以重复测量设计为例进行说明。

本研究的疾病为动脉硬化心脏病，处理因素为药物应用倍他乐克，观察指标为我们从数据挖掘中发现有影响的血钾指标。我们可以使用3.3提供的模块对筛选的样本进行提取和分析，也可以从本模块直接选取所需的数据并分析。重复测量分析有两种方法，一个是Hotelling T2检验，另一个是方差分析，本系统提供了这两种统计检验方法。

部分样本数据如下图三所示：

这里，我们仅观察一下方差分析方法的结果输出，如下图四所示。

从图中我们可以看到，根据P值得到：处理因素“倍他乐克”药物对血钾起作用，测量时间对血钾有影响，处理因素和测量时间有交互影响。从而验证了我们应用数据挖掘得到的结果。

4. 数据挖掘在中药研发上的应用

以上内容，我们重点是以西药的研究应用为例来说明以数据挖掘为特色的虚拟医药研究的方法。其实，数据挖掘和虚拟药物研究还非常适合于中医中药的研究工作，因为中医学本身是一个经过几千年不断摸索、积累和验证的、知识体系庞大的、具有完整理论体系的医学科学，但我们还需要应用现代知识不断地深入理解、挖掘、提高和应用，以便与现代科学能更好地融合。而数据挖掘正是探索和解释中医学奥秘的有力工具！

国内许多单位也开展一些中医中药数据挖掘的局部性的尝试。现在，我们就将这些数据挖掘在中医中药研究中的尝试加以汇总，分列如下：

1、中药配方中的文本数据挖掘；

2、对“药理”起关键作用的“有效成分”——单体或化学成分的挖掘；

3、中药方剂配伍规律的数据挖掘与研究；

4、方剂配伍物质基础与药效如(证侯、症状)关系的数据挖掘；

5、方剂配伍的用量与方剂效用级别间的关系(量效关系及模型) 挖掘；

6、中药药性理论与中药有效成份的关系挖掘；

7、方剂中各药味间的相关性挖掘；

8、相似病症的隐含相似关系挖掘；

9、同种疾病不同药方的相似性和差异性的挖掘和研究。

10、数据挖掘用于不确切病症的分类和研究。

CDA数据分析师考试相关入口一览（建议收藏）：