
精准医学之贝瑞和康基因组“大数据之路”
自基因测序技术被发明以来,建设人类基因组数据库一直是各国基因组研究中心的核心内容之一,人类基因组数据库的宗旨是为从事人类基因组研究的科学家和医护人员提供人类基因组信息。目前国际上人类基因组数据大多来源于西方白种人,然而不同人种的进化差异会导致明显的易感基因差异、特异性位点突变频率不同、基因突变表观差异等,因此在我国分子诊断与精准医学飞速发展的背景下,建立高质量的中国人群基因组数据库已经成为当下制约分子医学发展的重要壁垒。今年两会上,委员也建议应尽快建立精准医学资源库,整合共享医疗大数据,促进精准医学更好的发展。
贝瑞和康作为致力于将高通量测序技术实现临床转化的行业领导者,早在2015年8月14日宣布与云计算服务平台提供商阿里云达成合作,共同打造以海量的中国人群基因组数据为核心的数据云,实现对个人基因组数据的精准解读。该项目由美国贝勒医学院、现任职贝瑞和康CIO的于福利教授牵头,参与“神州基因组数据云”项目的研究人员达到了100多人,由医学、分子生物学、遗传学、计算机编程等研究领域的博士组成。项目组分成三个团队,一个是贝瑞和康的研究团队,一个是于福利在贝勒实验室的团队,另外一个则是专门做高性能运算的阿里云团队。
神州基因组数据云,是一个知识密集型项目。
阿里云拥有批量计算服务的强大能力,贝瑞和康则深耕基因检测多年已积累超过百万人群基因组数据,此次选取其中四十万人份数据作为“神州基因组数据云”项目的第一阶段数据,旨在借助云计算对该数据资源进行深入挖掘,进一步揭示中国人群遗传突变分布,提升中国人遗传疾病诊断的效率和精准程度。
当基因测序成本迅速下降以后,拥有数据量的多少不再是行业里唯一的竞争优势,而是否能够将海量的大数据进行解读,转换成具体能够应用的有效信息,才是测序企业发展的核心竞争力。光有云计算能力和基因组数据还不够,分析和注释技术是能否达成项目目标的内在核心驱动力。该项目发布一年后,也即2016年8月24日贝瑞和康公布了为基因数据分析开发的两大核心专利技术:Verita Trekker®变异位点检测系统和Enliven®变异位点注释系统。
Verita Trekker®经过严格的基因型质量控制,SNP 检测的灵敏度达99.00%,特异性达99.99%,真阳性率达99.90%;Indel 检测的真阳性率达88.00%;家系样本基因型真阳性率大于99.90%;各项指标均属国际业界一流水平。而Enliven®则通过统计学计算和文本挖掘方法整合国际权威的超过50个数据库和预测算法,其中也包括“神州基因组数据云”项目所产生的中国人特有基因信息数据库。同时,支持千万篇文献的即时查找,全面覆盖基因、变异、表型、疾病信息,参考权威文献、美国医学遗传学学会(ACMG)标准与实际基因型-表型对应,在这样完善的体系和先进的算法的保障下,能够出具可靠的变异致病性结果,为科研工作者和临床医生更好的研究和制定精准医疗方案提供帮助。
在Verita Trekker®和Enliven®两大核心技术共同驱动下的“神州基因组数据云”项目取得了阶段性的重要成果。2016年9月8日,贝瑞和康已完成世界首个中国人群基因组数据库建设,填补了国际基因数据库中缺少中国人群特有基因组数据信息的空白。
同年9月23日,在第十九届全国临床肿瘤学大会暨CSCO学术年会上,贝瑞和康进一步展示了该项目的重要成果应用。这其中包括与北京大学肿瘤医院解云涛教授合作的“中国人遗传性乳腺癌基因突变图谱项目”,以及中国40万人基因组大数据项目在临床应用层面上所取得的阶段性成果,结果显示中国人乳腺癌基因突变和其他人种相比具有显著性差异。
项目由解云涛教授和于福利教授共同展示,可以看到采用Enliven®变异位点注释系统对美国国家卫生研究院的相关项目中的BRCA1、BRCA2基因的2152个位点进行注释,将注释结果与以往报告结果对比,PPV(阳性预测值)达到99.3%,充分验证了Enliven®注释和解读能力的准确性。在此基础上,贝瑞和康将自建的中国人基因组数据库与万例妇科肿瘤患者的基因数据进行整合,建设成为全球最大的妇科肿瘤基因组数据库。
现在,神州基因组数据云项目仍在进行中,中国人群的基因组大数据正在成倍累积增长。受益于测序成本下降,降低获得大量数据的难度,因此只要在数据解读能力上快速突破,中国非常有可能在生物基因信息解读这一领域实现弯道超车。
“神州基因组数据云”项目的另一层意义则与我国医疗政策中正在力推的分级诊疗政策息息相关。通过与专家合作,大数据体系为90%以上的医院提供解读能力,这将对基层临床产生重要的指导意义。可以想象,在三四线城市,医生利用该数据云平台分析基因测序数据,在当地可以获得同样质量的检测分析,获得和在大城市大医院同等质量的报告,就能够进一步促进实现分级诊疗。于福利教授展望道。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
用 Power BI 制作地图热力图:基于经纬度数据的实践指南 在数据可视化领域,地图热力图凭借直观呈现地理数据分布密度的优势,成 ...
2025-07-24解析 insert into select 是否会锁表:原理、场景与应对策略 在数据库操作中,insert into select 是一种常用的批量数据插入语句 ...
2025-07-24CDA 数据分析师的工作范围解析 在数字化时代的浪潮下,数据已成为企业发展的核心资产之一。CDA(Certified Data Analyst)数据分 ...
2025-07-24从 CDA LEVEL II 考试题型看 Python 数据分析要点 在数据科学领域蓬勃发展的当下,CDA(Certified Data Analyst)认证成为众多从 ...
2025-07-23用 Python 开启数据分析之旅:从基础到实践的完整指南 在数据驱动决策的时代,数据分析已成为各行业不可或缺的核心能力。而 Pyt ...
2025-07-23鸢尾花判别分析:机器学习中的经典实践案例 在机器学习的世界里,有一个经典的数据集如同引路明灯,为无数初学者打开了模式识别 ...
2025-07-23解析 response.text 与 response.content 的核心区别 在网络数据请求与处理的场景中,开发者经常需要从服务器返回的响应中提取数 ...
2025-07-22解析神经网络中 Softmax 函数的核心作用 在神经网络的发展历程中,激活函数扮演着至关重要的角色,它们为网络赋予了非线性能力, ...
2025-07-22CDA数据分析师证书考取全攻略 一、了解 CDA 数据分析师认证 CDA 数据分析师认证是一套科学化、专业化、国际化的人才考核标准, ...
2025-07-22左偏态分布转正态分布:方法、原理与实践 左偏态分布转正态分布:方法、原理与实践 在统计分析、数据建模和科学研究中,正态分 ...
2025-07-22你是不是也经常刷到别人涨粉百万、带货千万,心里痒痒的,想着“我也试试”,结果三个月过去,粉丝不到1000,播放量惨不忍睹? ...
2025-07-21我是陈辉,一个创业十多年的企业主,前半段人生和“文字”紧紧绑在一起。从广告公司文案到品牌策划,再到自己开策划机构,我靠 ...
2025-07-21CDA 数据分析师的职业生涯规划:从入门到卓越的成长之路 在数字经济蓬勃发展的当下,数据已成为企业核心竞争力的重要来源,而 CD ...
2025-07-21MySQL执行计划中rows的计算逻辑:从原理到实践 MySQL 执行计划中 rows 的计算逻辑:从原理到实践 在 MySQL 数据库的查询优化中 ...
2025-07-21在AI渗透率超85%的2025年,企业生存之战就是数据之战,CDA认证已成为决定企业存续的生死线!据麦肯锡全球研究院数据显示,AI驱 ...
2025-07-2035岁焦虑像一把高悬的利刃,裁员潮、晋升无望、技能过时……当职场中年危机与数字化浪潮正面交锋,你是否发现: 简历投了10 ...
2025-07-20CDA 数据分析师报考条件详解与准备指南 在数据驱动决策的时代浪潮下,CDA 数据分析师认证愈发受到瞩目,成为众多有志投身数 ...
2025-07-18刚入职场或是在职场正面临岗位替代、技能更新、人机协作等焦虑的打工人,想要找到一条破解职场焦虑和升职瓶颈的系统化学习提升 ...
2025-07-182025被称为“AI元年”,而AI,与数据密不可分。网易公司创始人丁磊在《AI思维:从数据中创造价值的炼金术 ...
2025-07-18CDA 数据分析师:数据时代的价值挖掘者 在大数据席卷全球的今天,数据已成为企业核心竞争力的重要组成部分。从海量数据中提取有 ...
2025-07-18