京公网安备 11010802034615号
经营许可证编号:京B2-20210330
正确的理解,是玩转大数据的前提
眼下,无论是高校还是科研机构,以“大数据”为关键词的研讨会一拨接着一拨,云计算、物联网、智能终端……这些新概念串烧着出现,仿佛“大数据(数据分析师)”正撬动着一个非“技术宅”免进的新世界。
到底什么是大数据的真面目?英国帝国理工学院终身教授、帝国理工数据科学研究所所长郭毅可给出的却是一个举重若轻的解释。“大数据首先不是概念,而是一种现象、一种新发现的资源。就如同人类发现了新的石油一样——对大数据的发掘意味着可以创造财富,也正因此,大数据(数据分析师认证)会引发一系列的技术革命。”
9个月前,郭毅可接过上海大学的聘书,成为该校计算机学院院长。而在刚刚过去的2015年,这位学者走进更多中国人的视线,乃是因为国家主席习近平在访英时参观了郭毅可在帝国理工的研究所并听取了他的关于大数据研究的报告。这位学者是如何玩转大数据的,在上海大学计算机学院,本报记者独家专访了郭毅可教授。
大数据牵引计算机发展新方向:过去的支流将是今后的主流
对于大数据,学界说法很多。按照郭毅可的看法,大数据其实一直存在,只是发展至今,它成为一种像电、石油一般可以创造财富和价值的资源时,开始引发上、下游的一系列技术革命。
由此,各种玄乎的、计算机专家碰头时如数家珍的新概念,在郭毅可的解读中变得十分容易理解。比如,大数据的生成需要各种仪器,所以物联网、医疗基因测序等得以生成各种数据的仪器设备便风生水起。再如,对大数据这种“资源”进行处理,需要大规模使用计算机,“云计算”、智能终端的重要性得以凸显,它们不仅处理数据,也同时输送数据,继而产生新数据。
“在大数据所引发的一系列技术革命中,最为重要的是它对计算机科学的发展方向产生了根本性的影响。”郭毅可说,因为处理大数据的客观需要,计算机的“产出”正在发生改变。过去,计算机主要被用于模拟、高性能计算以及处理管理信息,而现在,计算机则被看作是大数据产品的生成器。所以,在计算机业界,包括高效的数据处理技术、机器学习等,眼下都成了最热门的研究方向。
“更直白地说,步入大数据时代,整个计算机科学的研究重点和使用方法都变了——计算机更向“智”的方向发展。”郭毅可这样解释个中缘由:因为要把数据生成为各种产品,这本应是人的“工作”——人通过观察做出反应和决策。而观察的行为,其本质是收集数据,反应和决策则会产出新的数据。“这就是为什么类脑计算机、人工智能会从过去的计算机科学的支流变成今天的主流。”郭毅可说。
受聘上海大学计算机学院院长后,郭毅可专门嘱咐工作人员做了一件小事:在学院大楼门口处,紧挨着计算机学院的Logo,全新安装了一个写着“智”字的铭牌。“所有跟人的智能相关的,都将是计算机科学要研究的领域。”作为一名计算机学院的教授,他试图用这一个字来解释大量学生们心中纠缠的关于“计算机科学应该学什么”的疑惑。
大数据研究:比起赚钱,更值得研究的是民生项目
和传统的高校计算机系教授稍有不同,听郭毅可谈他的研究方向,对“大数据”一窍不通的外行人都会觉得新鲜。而他的研究项目合作者中,除了理工科的教授,还有不少从事社会科学研究的学者和各路企业界的人士。最近,他正兴致勃勃地和一些媒体界的人士接触,探讨用数据可视化的新形式拍纪录片,研究目标说来很有趣:让一些“高大上”的政治话题,也能被平头百姓轻松接受。
以中国的“一带一路”战略为例。除了让国民理解“一带一路”带来的诸多益处,如何也同时向沿线的外国民众解释好中国的“一带一路”?按照郭毅可的见解,与其干巴巴地宣传政策,不如让数字来说话。比如,修通一条铁路后,能为沿线的国家新增多少就业率,会让当地文盲率降低多少、人口预期寿命增长多少。
从专业角度来讲,这类“数据可视化”的研究是郭毅可目前最感兴趣的研究方向。作为学者,他坚信一点:数据除了可以赚钱、创造财富,更大的价值在于服务民生。
去年10月,习近平主席造访英国理工,参观该校的数据科学研究所时,郭毅可用数据可视化的方式,分析了中国人口迁移的情况,“一带一路”政策的国际影响力、个性化医疗的推广以及上海地铁的负载分布和应急办法等。
实际上,因为这条公共新闻的披露,很多圈内人才恍然大悟:原来上海地铁运营状况的“大数据”,被送去了帝国理工做分析!
为什么不是上海本地的高校而是帝国理工更受上海地铁公司的青睐?郭毅可“嘿嘿”一笑,坦然作答:“要知道,伦敦的地铁可是世界上最古老的,我们‘玩地铁’可以玩出很多精彩的东西。”
事实上,这轻描淡写的一句中,隐藏着很多信息。如郭毅可接受本报记者采访时所言,在帝国理工的数据科学研究所,他经常要接待主动捧着数据上门的“客户”。很多在一些国内同行看来被机构、组织所垄断、难以得手的数据,却频频对郭毅可所在的研究所“开绿灯”。由此反观,最近两年间,奔着大数据的美好前景,国内很多大学和研究机构都忙着挂牌成立大数据研究机构。但真实的情况往往是,这边才揭牌,那头抱怨就来了:堂堂数据研究院,却苦于手上无数据,必须要自己找寻研究方向。
“没有数据的大数据研究院毫无意义。”郭毅可直言不讳:大数据研究,关键是要让数据产生价值。因此,“与其抱怨自己拿不到数据,不如好好思考一下,你的研究能够为数据拥有者解决什么问题。”
【独家对话】大数据时代,计算机系应办成教育特区
就业率这种指标,怎么能用来作为计算机系的KPI?!
文汇报:有人做过统计,在中国的理工科大学中,开设专业最多、录取人数最多的就是计算机专业。所以在不少省市教育主管部门发布的高校本科专业预警名单中,计算机专业这两年频频上榜。作为上海大学新任的计算机学院院长,您对这样的情况怎么看,怎么评价?
郭毅可:请问现在是什么时代?“大众创新、万众创业”、“互联网+”!请问在高校,哪个专业和它们最对口?答案肯定是计算机专业。所以谁要是说计算机专业没前途,我肯定不认同。关键的问题在于,高校的计算机专业有点跟不上形势发展,这个我们必须要承认,要拿出解决的方案。
但在此之前,我要指出一点,把计算机专业列入本科预警名单似乎不太合理。
我们首先要问,统计学意义上的“计算机专业”到底指什么?如果把那些从事计算机制造的纳入统计,那么专业就业率低,或许可以理解;但事实上,目前响应“互联网+”,在互联网上工作的人都在从事计算机科学。所以,拿“就业率”这个指标去作为大学计算机专业的KPI(关键绩效指标),实在太不合理了。计算机专业办得好不好?需要用创业率去考核,而不是学生的签约率。
无论是在美国还是英国,一流大学计算机系最拔尖的学生基本上都去创业了,二流的去了金融机构。如果今天我们的高校还在拿签约率、进500强企业作为衡量计算机专业办得好不好的标准,这种陈旧的管理观念真是要改一改了。
计算机专业不是授课授出来的,而是打拼出来的
文汇报:正如您所说,大数据时代的到来对计算机科学产生了根本性的影响。计算机科学发展如此迅猛,大学教育应该怎么办?
郭毅可:计算机科学发展正在迎来最好的时期。已有一些科学家预言,未来25年内(数据分析培训),计算机将达到人脑水平,当然,这会对人类社会的发展产生多方面的影响和冲击,但是这也是计算机科学发展历史上第一次接近到理想的边缘——和人一样,具有智慧。
所以大学目前需要应对的危机并不是计算机科学的危机,而是计算机专业办学的危机。考虑到计算机迅猛的发展态势,大学计算机学院需要办成一个教育特区,需要定制课程和教育方案。打个最简单的比方,我回国后发现,很多大学计算机系的学生花了很多时间在听课、听满堂灌的大课。我觉得很奇怪,因为在帝国理工,计算机系学生上课的时间很少,都是小班授课,老师讲课速度极快,学生们更多的时间是在实验室里做各种项目。总之一句话,计算机专业不是授课授出来的,而是打拼出来的。
中国高校对老师的要求是“全才”,而我们也需要同时用好“偏才”
文汇报:理想的教学,关键在师资。您回国后出任学院院长,对本土教师有何评价?按照您的改革设想,一旦学院课程改革启动,本土教师能够承担起重任吗?
郭毅可:我无法对中国大学教师的总体水平作评价,但就我在上海大学担任院长的这9个月的时间,在接触了大量老师后,我觉得我们的师资非常棒,不管是本土培养的还是国外回来的,水平并不差。而眼下的关键问题是,要让老师专注地做他们真正有兴趣的事情,而不是为了满足各种指标、考评的需要,让他们忙得团团转。
要说论文、科研指标,世界上所有的大学其实都有KPI考核。帝国理工也一样,但除了校长对外会介绍各类指标的完成情况外,教授群体本身不会太在意。
什么是真正一流的大学?在我看来,就是要凝聚一批学者,他们以为人类做出重大贡献、产生让人类铭记的研究为目标。有了这样一批学者当老师,继而把做科研的乐趣传递给年轻的学生,让他们觉得青春时代受到很好的教育——这样的大学就是一流大学。
从国外回来,我一个比较明显的感受是,中国很多高校对老师的要求是“全才”,希望老师科研教学样样好,而我们的很多老师或许是出于知识分子的尊严,每天忙着“达标”,过得有点累。实际上,能够成为“全才”当然好,但有时候“全才”也意味着各方面发展比较平均。与之相应,在某些方面具有能力特长的偏才,高校也应该学会扬长避短,承认差异,给他们以同样宽阔的发展平台。
无论是对学校、对院系还是对教师的考核,KPI是一种有效的方法,但与此同时,它也有不合理之处。因为KPI是“一刀切”的指标体系,是会谋杀个性的。在这一方面,我们不妨拿出点中国人的传统智慧,比如借鉴一下阴阳理论。如果KPI是“阳”,那我们还需要设计一个更富弹性的评价机制去加以平衡、综合。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在MySQL数据库优化中,分区表是处理海量数据的核心手段——通过将大表按分区键(如时间、地域、ID范围)分割为多个独立的小分区 ...
2026-03-19在商业智能与数据可视化领域,同比、环比增长率是分析数据变化趋势的核心指标——同比(YoY)聚焦“长期趋势”,通过当前周期与 ...
2026-03-19在数据分析与建模领域,流传着一句行业共识:“数据决定上限,特征决定下限”。对CDA(Certified Data Analyst)数据分析师而言 ...
2026-03-19机器学习算法工程的核心价值,在于将理论算法转化为可落地、可复用、高可靠的工程化解决方案,解决实际业务中的痛点问题。不同于 ...
2026-03-18在动态系统状态估计与目标跟踪领域,高精度、高鲁棒性的状态感知是机器人导航、自动驾驶、工业控制、目标检测等场景的核心需求。 ...
2026-03-18“垃圾数据进,垃圾结果出”,这是数据分析领域的黄金法则,更是CDA(Certified Data Analyst)数据分析师日常工作中时刻恪守的 ...
2026-03-18在机器学习建模中,决策树模型因其结构直观、易于理解、无需复杂数据预处理等优势,成为分类与回归任务的首选工具之一。而变量重 ...
2026-03-17在数据分析中,卡方检验是一类基于卡方分布的假设检验方法,核心用于分析分类变量之间的关联关系或实际观测分布与理论期望分布的 ...
2026-03-17在数字化转型的浪潮中,企业积累的数据日益庞大且分散——用户数据散落在注册系统、APP日志、客服记录中,订单数据分散在交易平 ...
2026-03-17在数字化时代,数据分析已成为企业决策、业务优化、增长突破的核心支撑,从数据仓库搭建(如维度表与事实表的设计)、数据采集清 ...
2026-03-16在数据仓库建设、数据分析(尤其是用户行为分析、业务指标分析)的实践中,维度表与事实表是两大核心组件,二者相互依存、缺一不 ...
2026-03-16数据是CDA(Certified Data Analyst)数据分析师开展一切工作的核心载体,而数据读取作为数据生命周期的关键环节,是连接原始数 ...
2026-03-16在用户行为分析实践中,很多从业者会陷入一个核心误区:过度关注“当前数据的分析结果”,却忽视了结果的“泛化能力”——即分析 ...
2026-03-13在数字经济时代,用户的每一次点击、浏览、停留、转化,都在传递着真实的需求信号。用户行为分析,本质上是通过收集、整理、挖掘 ...
2026-03-13在金融、零售、互联网等数据密集型行业,量化策略已成为企业挖掘商业价值、提升决策效率、控制经营风险的核心工具。而CDA(Certi ...
2026-03-13在机器学习建模体系中,随机森林作为集成学习的经典算法,凭借高精度、抗过拟合、适配多场景、可解释性强的核心优势,成为分类、 ...
2026-03-12在机器学习建模过程中,“哪些特征对预测结果影响最大?”“如何筛选核心特征、剔除冗余信息?”是从业者最常面临的核心问题。随 ...
2026-03-12在数字化转型深度渗透的今天,企业管理已从“经验驱动”全面转向“数据驱动”,数据思维成为企业高质量发展的核心竞争力,而CDA ...
2026-03-12在数字经济飞速发展的今天,数据分析已从“辅助工具”升级为“核心竞争力”,渗透到商业、科技、民生、金融等各个领域。无论是全 ...
2026-03-11上市公司财务报表是反映企业经营状况、盈利能力、偿债能力的核心数据载体,是投资者决策、研究者分析、从业者复盘的重要依据。16 ...
2026-03-11