
大数据与云计算,拯救帕金森
医疗行业的变革正成为新的风口,今天作者想讲讲大数据与基因技术结合,正在产生什么新的想象力。其中尤以基因检测技术走到了前面,让我们谈谈“帕金森综合症”:
在未来,基因检测术将会成为医疗不可或缺的一部分。越来越多的人会进行基因测序来了解自己的生命体征和健康状况。国内最大的基因检测机构华大基因,也正在抓住机会,用信息技术提升基因检测技术,致力于提供更好的基因服务。
基因,这个被我们熟悉却又十分陌生的词汇开始频繁出现。然而基因检测海量、复杂、多变的数据计算需求一直是华大基因前进道路上的鸿沟。解决数据分析和计算成了必须要克服的问题。
大数据打入帕金森
2014年8月13日,迈克尔·J·福克斯帕金森氏症研究基金会(MJFF)和英特尔公司对外宣布了一项合作,促进帕金森氏症的研究和治疗——帕金森氏症是一种全球范围的、患病率仅次于阿兹海默氏症的神经退行性脑部疾病。这项合作将利用全新的大数据分析平台进行多阶段研究——利用可穿戴技术监测患者症状,并用收集得来的数据探索相关模型。
可穿戴设备能够24×7全天候地在后台实时收集和传输相关客观数据。通过这种方法,研究人员能以每秒数百读数的速度分析来自成千上万患者的数据,同时获得海量数据以用于探索模型和获取新发现,再也不必受限于零星收集得来的少量数据信息和繁杂的书面患者日志。
所有这些,都可进一步帮助实现针对帕金森氏症本质的洞察,从而帮助科学家们衡量新药品的功效,以及协助医生制定预后方案。
英特尔公司高级副总裁兼数据中心事业部总经理柏安娜表示,“帕金森氏症症状的多样性给疾病检测的进展带来了巨大挑战。新兴的技术不仅可以创建一个测量帕金森氏症的全新范例,还能为医学界提供更多数据,以便找出目前尚未明确的疾病特征,从而开拓全新的研究领域。”
大数据和云计算给医疗界带来了新的光明,利用它们来解决基因测序带来的问题是大势所趋。
解决信息技术瓶颈
“只有以科学发展,以大技术、大平台、大数据支撑下的基因产业,才是无穷无尽的,永远没有冬天。”华大基因总裁、深圳华大基因研究院院长汪建先生如是说。这也最终促成了华大基因与英特尔的合作。
华大基因在基因测序计算中应用的BWA(Burrows-Wheeler Aligner),是基因研究中一款十分优秀并且被广泛使用的序列比对软件。由于BWA软件代码分支多,并且有很多随机访问,起初大家都不看好BWA的移植效果。但实际测试性能却已经完全出乎专家预期。
BWA包括6种优化方法:
第一,使用OpenMP代替Pthreads,使用schedule实现负载均衡、使用KMP_AFFINITY=balanced, granularity=thread实现线程绑定。
第二,使用双缓存,同时进行数据读取和计算。
第三,使用TBB的内存分配代理取代glibc的内存分配。
第四,使用多缓存进一步减少IO瓶颈。
第五,简化耗时函数中的循环。
第六,在至强融核上增加任务级并行按照输入文件进行任务划分,每个任务处理一部分输入数据,避免OpenMP的Map-Reduce并行模式带来的负载不均衡的开销。
在尝试了6种优化方法之后,BWA获得的最好加速比已经达到2.19。
而不得不说的是至强和至强融核的组合在代码迁移和优化上为基因测序带来了非常大的优势。王丙强博士说:“代码的修改工作量不大,只需要对源代码进行很小幅度的修改,是添加一些辅助编译指示,就能在这个组合上运行的相当好。”
实际应用中,借助英特尔的产品技术,计算效率能大大提高。以测序为例,以前传统的方式需要几个星期时间,而现在8个小时就可以完成。这是非常大的突破。
这一重大突破的背后,则是英特尔至强融核协处理器(Xeon Phi)。这是英特尔面向高度并行的高性能计算(HPC)应用所推出的协处理器,能够提供多达61个内核、244个线程和1.2万亿次浮点运算性能。此外,英特尔至强处理器架构使用同样的编程语言、并行模式、技术和开发人员工具,因此以往在至强处理器上运行的应用,在向至强融核上迁移时,具有更便捷、更易于移植等优势。
其编码的简单可移植性,正是基因测序相关程序中的重要需求。而其强大的计算能力为提高基因测序速度提供源动力,标准的编程模型也为基因测序向至强融核上的移植提供了便利。
在测试基于英特尔至强和至强融核的高性能计算平台的同时,华大基因也正在执行3M百万基因组计划,即百万动植物基因组计划、百万人基因组计划、百万微生态基因组计划。该项目将联合全球科学家,通过上百万样本的测序构建遗传信息的数据库,进一步推动基因组测序和生物信息分析技术在粮食安全、医学应用、生态保护等重大发展问题的应用。
现代生命科学和医疗健康正转变为由大数据和大计算推动。在这个技术为王的时代,任何独立的高端技术都将面临寒潮。只有相互协作,共同探索开发,才能真正的造福于人类。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
CDA 数据分析师报考条件详解与准备指南 在数据驱动决策的时代浪潮下,CDA 数据分析师认证愈发受到瞩目,成为众多有志投身数 ...
2025-07-18刚入职场或是在职场正面临岗位替代、技能更新、人机协作等焦虑的打工人,想要找到一条破解职场焦虑和升职瓶颈的系统化学习提升 ...
2025-07-182025被称为“AI元年”,而AI,与数据密不可分。网易公司创始人丁磊在《AI思维:从数据中创造价值的炼金术 ...
2025-07-18CDA 数据分析师:数据时代的价值挖掘者 在大数据席卷全球的今天,数据已成为企业核心竞争力的重要组成部分。从海量数据中提取有 ...
2025-07-18SPSS 赋值后数据不显示?原因排查与解决指南 在 SPSS( Statistical Package for the Social Sciences)数据分析过程中,变量 ...
2025-07-18在 DBeaver 中利用 MySQL 实现表数据同步操作指南 在数据库管理工作中,将一张表的数据同步到另一张表是常见需求,这有助于 ...
2025-07-18数据分析师的技能图谱:从数据到价值的桥梁 在数据驱动决策的时代,数据分析师如同 “数据翻译官”,将冰冷的数字转化为清晰的 ...
2025-07-17Pandas 写入指定行数据:数据精细化管理的核心技能 在数据处理的日常工作中,我们常常需要面对这样的场景:在庞大的数据集里精 ...
2025-07-17解码 CDA:数据时代的通行证 在数字化浪潮席卷全球的今天,当企业决策者盯着屏幕上跳动的数据曲线寻找增长密码,当科研人员在 ...
2025-07-17CDA 精益业务数据分析:数据驱动业务增长的实战方法论 在企业数字化转型的浪潮中,“数据分析” 已从 “加分项” 成为 “必修课 ...
2025-07-16MySQL 中 ADD KEY 与 ADD INDEX 详解:用法、差异与优化实践 在 MySQL 数据库表结构设计中,索引是提升查询性能的核心手段。无论 ...
2025-07-16解析 MySQL Update 语句中 “query end” 状态:含义、成因与优化指南 在 MySQL 数据库的日常运维与开发中,开发者和 DBA 常会 ...
2025-07-16如何考取数据分析师证书:以 CDA 为例 在数字化浪潮席卷各行各业的当下,数据分析师已然成为企业挖掘数据价值、驱动决策的 ...
2025-07-15CDA 精益业务数据分析:驱动企业高效决策的核心引擎 在数字经济时代,企业面临着前所未有的数据洪流,如何从海量数据中提取有 ...
2025-07-15MySQL 无外键关联表的 JOIN 实战:数据整合的灵活之道 在 MySQL 数据库的日常操作中,我们经常会遇到需要整合多张表数据的场景 ...
2025-07-15Python Pandas:数据科学的瑞士军刀 在数据驱动的时代,面对海量、复杂的数据,如何高效地进行处理、分析和挖掘成为关键。 ...
2025-07-15用 SQL 生成逆向回滚 SQL:数据操作的 “后悔药” 指南 在数据库操作中,误删数据、错改字段或误执行批量更新等问题时有发生。 ...
2025-07-14t检验与Wilcoxon检验的选择:何时用t.test,何时用wilcox.test? t 检验与 Wilcoxon 检验的选择:何时用 t.test,何时用 wilcox. ...
2025-07-14AI 浪潮下的生存与进阶: CDA数据分析师—开启新时代职业生涯的钥匙(深度研究报告、发展指导白皮书) 发布机构:CDA数据科 ...
2025-07-13LSTM 模型输入长度选择技巧:提升序列建模效能的关键 在循环神经网络(RNN)家族中,长短期记忆网络(LSTM)凭借其解决长序列 ...
2025-07-11