
编者按:9月11日—9月12日,由经管之家(原人大经济论坛)主办的“2015中国数据分析师行业峰会(CDA•Summit)”在北京举行。本文是台北医学大学教授谢邦昌在峰会上的演讲全文,谢邦昌教授演讲的主题是“大数据在生技医疗之应用”。
各位嘉宾、各位先生、各位女士,大家早安!
很高兴被称为老教授,实际上也很老了。听完吴院长的一悉话,我今天所介绍的比较简单,在医学领域大数据的应用。我也希望能够告诉大家大数据这几年来它所发挥的作用。
刚刚吴院长提到大数据在这方面的应用,其实有一句话很重要。我们知道没有人拥有所有的数据,你怎么在既有的数据中间找到自己的数据,这是最重要的。刚刚我跟吴院长沟通一些事情,大家知道在大数据领域中,我们有三个领域,IaaS、SaaS、PaaS。在SaaS的大概99.99%,我们都不是IaaS、PaaS这个领域的人,但是现在很多人都在往IaaS、PaaS这里面走,我们应该是SaaS里面的人。
大家想一想我讲的这句话,在医疗大数据中间,我们看一下医疗未来的发展。其实科学精确描述这个世界,现在的生物学在越来越朝向实证科学走。现在我们越来越多涉及到基因,为什么?我们要用大数据去解读。所以在生命语言中间,心里我们缺乏的是了解生命语言。但是我们已经有生命语言,我们不懂得生命语言的在哪里。
新的基因组定序,从植物、生物、微生物的定序,这方面的领域在各个方面占有很大的部分。现在在很多领域研究,大数据里面60%都是在做健康这方面的研究。
关于人类基因组,对我们大数据来讲很多人都觉得是无字天书。虽然我是学这个专业的,我跟我太太看这个,我可以从统计和大数据的角度向她解释一些原因,这些是人类基因。PM2.5跟你的健康有关系,跟你的基因有关系。甚至天气、温度会跟你的血压和相关的健康状况有关系。从Genes到Biochemical,最难的是我们怎么把数据加以整合和分析找出有用的信息。所以基因跟疾病之间的关系,有家族遗传的关系。我们不知道这个病是什么样的,我们要了解遗传,我们要知道基因。
还有基因跟环境之间的交互,我有一次到北京来流鼻涕就好了,但是到台北鼻涕一直有,你怎么把这两个因素中间的数据找出来。基因突变与癌症之间的变化,他的家族病史告诉他,他可以从一些数据中找出原因,用大数据协助来做这件事情。所以在这些控制中间,我们越来越了解病因。
从大数据中间我们可以产生分子级的断命家,这个已经不是天方夜谭了,他可以依照你个人特质化的基因来治疗。未来是什么样的,可不可以有干细胞产生某项器官,把你的药效带到心脏、血管任何的定位。这些东西是不是对人有用,是有用的,但是大数据怎么分析出这些东西。
有一些人研究干细胞的,结果发现干细胞存在人类身体所有的部分。尤其是第二大部分是这块,你的脂肪里面的干细胞是最多的。特别是研究心脏和肺等等,对干细胞的研究我们一直在进行,对干细胞的修复也是没有问题的。还有就是纳米技术,这里面需要太多大数据的应用了。
最后是无声的杀手人类与微生物的战争,刚刚教授讲到了流感的预测,很重要的是细菌不断的演化,演化的速度比你预测的速度还要快。
大家可以知道在医学上面的挑战刚开始,它跟大数据的结合现在如火如荼的在做,我今年2月才转到大数据,我们需要做的就是这些整合。在这个情况下,今天跟大家谈到的是所谓的大数据在医疗上的应用。
其实刚才吴教授讲过了,我请大家记住四个英文单词SMAC(Social、Mobile、Analytics和Cloud),实际上手机和任何分析速度运算来月快,请大家记住这四张图形,Science一定告诉你data,时代杂志告诉你2045年那些事情,因为人类会变成不朽,你相不相信这件事情,最后这件事情又引申了2045这件事情。
在2012年5月做了一个实验,谁比较聪明,Warse最聪明,它是世界上益智赛观者。大家回想十几年前有一个深蓝,它赢了谁?赢了前苏联的棋王。告诉你,以后玩象棋游戏电脑陪你玩儿,这就叫电玩时代的来临。这个就是人工智慧时代的来临。大家手边拿着一个手机叫智能手机。你以后家里的很多都冠上智能。连大数据都可以办世界博览会,我们原董事长也在场。世界博览会(2015贵阳国际大数据产业博览会),大家知道世界各大咖都集中在那。
我想说台湾做的一件事比较好的,叫开放Data,政府在各方面的数据能公布的很多都能公布。我们所有的财政,电子发票等等这些,很有研究兴趣的。还有健保资料部能公布的都能公布,然后加以整合,但是个人隐私的都不会公布。政府愿意公布这些材料说明政府开放出来,所以这件事情也很重要。中国政府现在重要的一件事情是怎么公布数据资料,虽然做了但是还是不够。
马云在5月的时候说的这句话,就是IT时代把人变成了机器,但是DT时代让机器越来越接近人,越来越接近人的智慧。现在DT时代来临不代表IT不重要,它还很重要,我们在座的99%的人大概都不是做Ass这块,我们是做Saas这块。速度越来越快,需求量越来越大,代表着云计算时代的来临。所以不必担心有这些种种,不见得每个人都建Data中心,该做什么的做什么,我们是要做解决方案的人。
记得,我现在看到很多都教育你怎么跳个层次,跳到里怎么找Data做这方面,No Data记得这些事情。我不是说这块不重要,但是这块相当成熟了,这块你让该做的人做,大数据应用很简单的一句话,就是Data是什么。所以大忽悠麦肯锡忽悠大数据,其实它之前就有了,但是忽悠的非常好。所以看大数据组织,联合国组织,看看大家都在玩了,中国政府一看,再看美国白皮书,我该玩儿大数据了,所以2012年应该是中国进入大数据的元年,当然中国跑的比谁都快,今年又办了一个大数据的峰会。所以最重要的告诉大家,它提的大数据宣言,100多个国家,40多个企业提这个宣言的意义在哪里?我要定数据的规格,这是有真知灼见的。所以海峡两岸的大咖都在这里。
大家可以看到在未来十年电脑的智慧,现在是老鼠,未来十年大概会接近人脑。所以刚刚已经讲过这个了,就是大数据的整合,刚刚吴院长说的就是Crisp的过程。我刚刚讲过,以往来讲这些分析方法什么的要用很多算法,像oracle等等都已经把这些买下来了,这样方法都有了,而且很简单很快速。我刚才讲了C+、R等等都有了,现在是解决方案的天下。我很快可以找到这个结果,我之所以用电脑是要证明给大家看,我简单秀一下,大家就明白了。
这一张可以处理几百万的资料,假设在座的中小企业大概一两百万的资料,你用Excel就可以处理掉了。我刚才说做Guesting,我们这里有数据挖掘的预测,你要做预测,然后就是下一步,一步一步这样下来,我就不一一讲了。我要预测这三个地方的销售量,我直接完成,完成之后,我们模型就直接出来了。大家可以看到,这是它的预测值就出来了,当然它有它的模型。以这个来讲,我们刚才讲的也一样。我想这些东西大家也都会。首先我就可以很快的做这些,刚刚吴院长讲到的这些观念。
很重要的是,我要看销售的预测,要看它之间的关联性,找到你买它们之间的关系。以这个来讲一样,我可以很快的找到,你今天购买的行为中间你会有哪些之间的结构关系,然后你可以找到你买它们之间的结构关系。刚才是几万的资料,买这个就可以知道其中的结构关系。开始的秀只是为了证明,是你怎么找到这些资料,这些资料你能不能得到,你不能得到的话,你做分析资料,我刚才说No Data,你有再好的技术都是空的,但是现在大家都在卖产值给你,你没有Data,什么都是枉费的。所以百度可以做世界杯和任何的预测,所以未来是以Data为核心的生活。我们现在以大数据做一个分析,因为两岸现在青少年问题越来越严重,我们警察局结合了教育部,结合它们的很多大数据分析,第一个,先分析青少年常上网站的增量,然后找到之间的关联性,找到这些关联性之后就是语义分析,然后找出它的主题。我们看这些主题的监管的知识,我们要做哪些事情?电子足迹,跟踪这些,去辅导这些青少年。所以根据这些电子足迹,大家看到台湾的青少年网站是Facebook等,我们可以很快找到这些,可以知道哪些要注意,还有领头的意见领袖是谁,这其中就能看到相关性种种的,然后协助他们做毒品辅导之类的。电子足迹进去后锁定,然后找出毒品的来源,还有建立毒品的DNA,再建立大的数据库。
这个跟我们五年前我们跟调查局做的一件事情,大家看这也是杂七杂八的,我们调查一个人,那个是毒犯判了进了牢里后的记录,这个记录很复杂,这就是一个购买行为,这是他跟各类人的联络,马上就清楚的勾勒出来,勾勒出来之后结合两岸的刑事警察局破获了东南亚一个毒网,这就是大数据的简单应用。没有这些数据,更多的应用也没用。
资料还可以用在治安,用在暴力犯罪预测,哪里的暴力犯罪最多,这个美国已经在做了,这个可以用在大数据的数据的整合。台湾有一个总体的资料库,大家了解台湾进总体资料库有很多是开放的,你可以看一看整个结构。大陆我们协助过统计局做数据平台,国家数据,但是这些数据的开放性还不够,同时也怀疑这些数据的准确性,这些都是值得加强的,我就不再讲了。
现在数据的整合越来越重要,DataTime已经上新三板了,数据模仿。我们现在在做哪些事情?我在北医,我们原来做的有点像这件事情,这个我已经向各位报告过了。我们现在做了三个:医疗云、健康云,照顾云,走在大数据上。这三个云最重要的,台湾叫健康保险,这里叫医保数据库。医保数据库,假如有信息化,你们可以进去,因为这是开放的,但是需要申请,这里有不同的申请,它会教你怎么开放。这些东西怎么去串这些数据库。所以你要有串数据库,整合数据库的能力,你要想怎么用Saas把这些数据库整合出来,了解心脏病到底用什么药。像刚刚讲的乳癌,这个人家怎么做的,都可以清清楚楚知道,然后再来重大伤病,还有住院,医疗这些,清清楚楚的这些资料都可以开放,但是个人资料都没有开放。
我们现在做的一件事情,我们有五家医院,还有些一中心,我们将医保、健保数据库加以整合,能不能跟生活形态,跟你的运动,跟人类的生活形态,甚至基因等加以整合,整合完以后数据处理,数据分析,它会产生什么样的价值向各位报告,台湾15年下来产生了有顶级影响力的研究报告。所以造就了这两年来,你可以看到很多数据,经济学人在今年公布了台湾是宜居城市,台湾的医疗在全世界是第三,亚洲第一,健保数据库的公开和研究,造就了台湾医疗水准在这十几年来突飞猛进。
我经常讲因为一个数据库带动了一个领域的成长,这个成长是关于到自己的健康。对于这个来讲,台湾现在跟大数据地理信息和影像方面的结合。我们公布区域资料之间的整合和人口结构,我们可以知道这个区域的医疗水准够不够,医疗资源够不够。我们还可以知道遗传病,台湾最流行的疾病是台南的登革热,我们可以知道它的散布情况,当年没有大数据所以蔓延非常广。我们可以知道疾病的蔓延跟疾病的防治,这些都很清楚。
所以在疾病的预防中,早期预防,早期医疗。我们跟上海的医院合作,我们把台湾的管理技术移植到上海、厦门、北京,目前在做这些事情。在医疗感知上有小米手环,现在的小米手环就是看你睡的好不好而已。用台湾的电脑数据库建立一个模型,用来判断睡眠状况可能跟高血压、抑郁症这些都有关系,来看你整个睡眠状态来判断这些症状,现在我们在做这方面的模型,这样的话戴小米手环的价值就更高了。小米手环的价格可能是一百块,我的APP你咨询一下可能就两三块,所以这是医疗云、健康云,用大数据平台衔接起来,连门诊、急诊这些都在做。
现在很多人都在玩这个,当然你要进来也可以。我们玩的是这一块,最重要的是有数据,有数据进来以后才能有价值。所以大数据越来越重要,未来收集资料、整理资料、分析资料,你把这些资料放在手机里面,未来最重要的是数据。大家都有服务,你把服务放在手机里面就是智能型的手机。我刚开始只是用模型,我们有太多的模型可以放在手机和电脑里面,我们医疗的价值就在这里,这才是商业智慧。
在这个过程中,我们产生的智慧在这里,产生的云在这里。你用手机,你用不同的设备跟它接触,这是一个革命时代的来临。所以请大家注意,还是用台湾的医疗大数据来告诉大家这是十年来的奇迹。大家到台湾走一走,台湾的医疗我不敢说是全世界第一,但是我至少敢说是世界领先的,台湾的医疗水准通过这个结构带动了台湾的医生在全世界是相当有名的,所以医疗大数据是非常重要的。
科技风云,再辉煌十年,别人都在说为什么十年。到2015年希望我们在座的每一个,你所在的行业、企业或者是研究单位,如果你没有在这个领域,就像马云说的不参与这个一定埋怨,但是我加了一句话,不参与这个一定会后悔,一定会被淘汰。诺基亚说了一句话,我没有做错任何一件事情,我只是告诉你世界变化的太快了,我赶不上,我没有找到那个定位。我们期待一个未来的智慧城市和智慧医疗,希望我们一起努力迈向大数据时代,我也希望跟大家一起工作,一起研究,一起合作,谢谢大家。
主持人:
谢谢谢教授,谢教授的演讲给我三个感觉。第一个是特别幽默;第二个是他虽然不青春,但是他依然非常年轻。因为他时时刻刻走在大数据世界的最前端。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在 “神经网络与卡尔曼滤波融合” 的理论基础上,Python 凭借其丰富的科学计算库(NumPy、FilterPy)、深度学习框架(PyTorch、T ...
2025-10-23在工业控制、自动驾驶、机器人导航、气象预测等领域,“状态估计” 是核心任务 —— 即从含噪声的观测数据中,精准推断系统的真 ...
2025-10-23在数据分析全流程中,“数据清洗” 恰似烹饪前的食材处理:若食材(数据)腐烂变质、混杂异物(脏数据),即便拥有精湛的烹饪技 ...
2025-10-23在人工智能领域,“大模型” 已成为近年来的热点标签:从参数超 1750 亿的 GPT-3,到万亿级参数的 PaLM,再到多模态大模型 GPT-4 ...
2025-10-22在 MySQL 数据库的日常运维与开发中,“更新数据是否会影响读数据” 是一个高频疑问。这个问题的答案并非简单的 “是” 或 “否 ...
2025-10-22在企业数据分析中,“数据孤岛” 是制约分析深度的核心瓶颈 —— 用户数据散落在注册系统、APP 日志、客服记录中,订单数据分散 ...
2025-10-22在神经网络设计中,“隐藏层个数” 是决定模型能力的关键参数 —— 太少会导致 “欠拟合”(模型无法捕捉复杂数据规律,如用单隐 ...
2025-10-21在特征工程流程中,“单变量筛选” 是承上启下的关键步骤 —— 它通过分析单个特征与目标变量的关联强度,剔除无意义、冗余的特 ...
2025-10-21在数据分析全流程中,“数据读取” 常被误解为 “简单的文件打开”—— 双击 Excel、执行基础 SQL 查询即可完成。但对 CDA(Cert ...
2025-10-21在实际业务数据分析中,我们遇到的大多数数据并非理想的正态分布 —— 电商平台的用户消费金额(少数用户单次消费上万元,多数集 ...
2025-10-20在数字化交互中,用户的每一次操作 —— 从电商平台的 “浏览商品→加入购物车→查看评价→放弃下单”,到内容 APP 的 “点击短 ...
2025-10-20在数据分析的全流程中,“数据采集” 是最基础也最关键的环节 —— 如同烹饪前需备好新鲜食材,若采集的数据不完整、不准确或不 ...
2025-10-20在数据成为新时代“石油”的今天,几乎每个职场人都在焦虑: “为什么别人能用数据驱动决策、升职加薪,而我面对Excel表格却无从 ...
2025-10-18数据清洗是 “数据价值挖掘的前置关卡”—— 其核心目标是 “去除噪声、修正错误、规范格式”,但前提是不破坏数据的真实业务含 ...
2025-10-17在数据汇总分析中,透视表凭借灵活的字段重组能力成为核心工具,但原始透视表仅能呈现数值结果,缺乏对数据背景、异常原因或业务 ...
2025-10-17在企业管理中,“凭经验定策略” 的传统模式正逐渐失效 —— 金融机构靠 “研究员主观判断” 选股可能错失收益,电商靠 “运营拍 ...
2025-10-17在数据库日常操作中,INSERT INTO SELECT是实现 “批量数据迁移” 的核心 SQL 语句 —— 它能直接将一个表(或查询结果集)的数 ...
2025-10-16在机器学习建模中,“参数” 是决定模型效果的关键变量 —— 无论是线性回归的系数、随机森林的树深度,还是神经网络的权重,这 ...
2025-10-16在数字化浪潮中,“数据” 已从 “辅助决策的工具” 升级为 “驱动业务的核心资产”—— 电商平台靠用户行为数据优化推荐算法, ...
2025-10-16在大模型从实验室走向生产环境的过程中,“稳定性” 是决定其能否实用的关键 —— 一个在单轮测试中表现优异的模型,若在高并发 ...
2025-10-15