
潘杭琳:大数据是共享型资源_数据分析师考试
“中国制造2025暨德国工业4.0峰会”于2015年7月2日在北京召开。中德设计协会常务副会长潘杭琳出席并演讲。
以下为演讲实录:
潘杭琳:大家下午好!
我姓潘,潘杭琳,在德国15年,今天非常荣幸,我们受中小企业协会的邀请,到这里来。我和大家分享一下这十几年在德国看着数据科学是怎么一步一步从最初的一些科研项目,然后一步一步被社会化网络推动着,最后变成相当于谁也无法用原有的一些框架去迎接它的挑战的这么一种形式。然后又看到全世界的这些数据科学家是怎么样群策群力来解决真正的海量大数据的。
我们一直以来都是在不断地对数据加深理解,在座的都知道,计算机存在的时候,它就叫做信息了。很多的数据只要能存起来,它就是信息。有用的信息叫做数据,有用的数据叫做规则,有用的规则叫做智慧。有一种说法就是信息、数据、规则、智慧,这四步。
真正对我们人类有用的应该是最后一步,就是智慧。要达到智慧这一步,我们经历了各种各样的探索,曾经做过一个项目,有过好多学科进行交叉,有过存在论,有过智库,有过数据挖掘,一步一步,到最近在中国,反正前两年一下子大数据这个名词起来了。其实大数据这个名词1980年就有了。
2014年,大家就看到了很多流数据,视频流也好,这个数据过去就没有的,但是这个数据我们还是需要从它里面提炼出一些东西来的。2014年,我们有一个新名词叫做块数据,这个是新成立的贵州大数据产业园他们有一个好的说法,它把一些数据成块,作为块里面是共享了,它叫做块数据。
我们从一个更广阔的领域来看,大数据应该像海一样的,叫海数据,我的数据可以放在公开的地方,大家都可以享用,这才是真正的大数据。后面的几页,我就跟大家讲大数据快车不是现在才有的,一直就有,只是我们要走对路,要走对真正的大数据。LOOD就是连在一起的开放数据,这才是我们认为的大数据。
我先介绍一下我自己本人,我在德国是在马克斯。普朗克研究院信息研究所,右上方是德国的计算机之父,是他在整个德国之内把各个计算机系建起来的。他最经典的理论就是他理解了相等理论,他知道了信息商是怎么来的,知道信息的本原是什么。我在马克斯普朗克研究院12年,来来往往后面一起合作。通过这个平台接触到了全世界范围之内的各类广大数据的领域的团队和机构。
目前大家都讲工业2025和工业4.0,其实工业2025和工业4.0也少不了数据,我们看看信息化,人工智能实用化两头是怎么走的。马克斯普朗克研究院,德国的诺贝尔奖有一半来自于这个研究院,由它很自然召集起我们所说的世界级研究机构一起来看看大数据这个难题。他们成立了一个OPENLINKED DATA,我们是最早的发起人之一。
大数据最早用的是IBM[微博]的WATSON,它做了2014年600亿美金的产值,但是你去查一下IBM的WATSON,它的白皮书里面唯一引用的两个科研成果,一个就是来自于我们团队,就是刚才那张照片里面的团队。
我们团队也跟斯坦福和麻省理工大学对换博士生,我们承接VLDB,真正的大数据国际协会,还有国际数据工程,然后网络,然后信息检索,还有数据管理等等这些国际化的最顶层的搞大数据的专业协会,都是我们这个团队很多人分别当各类的评审,然后组织者这样的。
我自己本人现在是国家科技资源共享服务工程技术研究中心的特聘专家,这是共享,突出一个字,资源共享,我们提供了很多的公开数据供全中国的人,甚至全世界的人来享用。
我们在当地,在萨尔这个地方,有很多德国朋友都知道萨尔是非常小的小地方,但是这个小地方很特殊,它有德国国家人工智能研究中心,它拥有了SMARTFACTORY,也就是智慧工厂全世界的注册商标。所以,实际上工业4.0里面核心的这个东西,是来自于DFK1,LPI和NLP连在一起的,这个就是自然语言处理。把人都理解不了的东西用计算机来理解,最后做了人是没有这个智力,也没有这个时间去把全世界的信息全部整理起来一个智库的,但是我们可以用计算机来帮我们做。
当然,我也担任了中科院的一个项目职务。
这叫做海数据,我们最初在这个地方,我们的位置是在这个地方,德国是最先的先期,可能这个就是整个网站,整个雅虎所有数据就是这一个点。一般来说,整个网站在我们这里就属于一个节点,然后我们把这个节点按照类别,大家按照一个接口全部公开连在一起,这才是大数据。
工业4.0是大数据下面有工业大数据以后产生的量,肯定比刚才产生的互联网的数据还要大,原因它是流性质的,这个数据流过来流走的,你要及时处理了。如果你连这个都处理不了,后面就更加不可想象了。
因此,我们在考虑大数据基础架构之下,我们再如何看相当于对传统产业进行发展模式、组织结构和价值理念的重新构造。我们有足够多的案例帮助大家实现原来不可想象的大数据的管理。
大数据BT本身也像马云[微博]所说的,它是一个共享型的,我有的资源和你有的资源,我们都要拿出来,拿出来才有价值。当然要有一个保护的机制,但是双方一定要拿出来。
有一些观点也是可以共享的,这里就非常看中360公司的傅志华,他觉得企业里面就有一个画像,他觉得企业里面的数据就有数据基础平台,有业务运营监控,有用户体验优化,有精细化营销,有市场传播,还有经营分析,还有战略分析,我觉得他写得非常好。
我们想做的事情是,这是按照中国的企业的实际情况,它对应到大数据的一些应用上去,我们能做的是帮助它怎么样来进行这个跨越。企业的大数据应用的路线图应该是怎么样的。
对于企业家来说,我们不应该给他讲太多理论的东西,或者科研的东西,或者国外的东西,你就告诉他,一只手掌拿出来,你就告诉他五个“一”,这五个“一”他都知道什么意思,他就能用好大数据了。
第一,疑问。你的企业里面基础数据到底有哪些,哪些是可以数字化的,哪些是可以信息化的。
第二个,意向。企业用大数据想做什么,到底是做营销,还是做市场,还是做体验,还是做运营监控呢。你的意向,这个企业家要知道。
然后,要依托。你到底依托什么层次的人来对接,是依托科研性机构,还是公益性机构,还是专业的企业、商业公司,还是相当于国家的,也就是说国家队,或者是政府。这是你依托谁,跟谁一起合作最合适,这些一定要做好。
第四,依据。假如通过你的合作伙伴,因为我们自己一个公司不大可能去培养一个数据科学家的,数据科学家起码要十年培养。数据分析师倒是可以培养的,数据操作员更加可以培养。但是你培养这些人以后,这些数据帮你挖掘出什么来,哪些数据是能产生的,你把第四步依据和第五步依存做得好,你只要能够挖掘出数据的,哪怕你这个公司目前情况不好,你放心,在心里这个时代上,你的价值一定是陪着你的数据而存在的,就像一滴水,你这滴水放在平地里马上就会消失,但是放在大海里,永远不会干涸。这就是大数据要让你走到的这条路上,要有方法,又要有源数据20%,又要有数据检索,让你把意向、依托搞得更明确。然后要依据智慧的云服务帮你做,最后达到一个决策数,整体上,为你这个企业站好一个位置。
我们举一个例子吧,比如说,我讲我原来的校长,我原来浙大出来的,潘云鹤校长,目前有很多搜索引擎,我要找一下关于某一个人的基本概况,比如我现在为企业上一个项目,这个项目可能需要查一些资料,我们用大数据帮他查。比如这样一查,他的旁边我知道他的论文合作关系是谁,专利合作关系是谁,项目合作关系是谁,这个数据在大数据下面全有。我还可以查这个项目最近几年怎么样怎么样,近几年项目多少、专利多少、论文多少,我还可以查项目的具体信息。它的主要专业,计算机这才是真正的智慧化的检索。你要查一个人的时候,它会把这个人一切相关的专业方向全给你找出来,这是更加靠近人们所需要的对搜索引擎的一个要求。
其中,比如对传感器、网络不是很了解,我还可以对任何一个专业的任何一个术语再进行深入,任何一个学科的专业术语都能查出来中国最好的应该在哪里,最好的机构应该在哪里。用这种方式,真正把全中国的这些公开的数据全部都给它一网打尽。每一类又能知道某一个热点的事情,它在市场上,哪个地方最热,这个项目哪个项目是热点比较多一点。
所以,总的来说,只要大家把这个思路改过来,相当于用五个“一”,每一步都找对合适的合作伙伴,大数据不是那么遥不可及的,大家数据还是很容易能够碰得到的。不过,千万不要拿着造石子路的技术去修一个赛车道,然后让赛车去跑,这个太浪费了。我们最终科研大概是引领七到八年的,技术是引领三到四年的,企业是引领半年的。我们希望企业家一方面学习德国的培训的这一块,然后另一方面他要学会向科技提早五年看,提早三年看。技术是提早三年到五年,还有像科技,科学,科学是提早七年、八年看。我希望通过这么一个呼吁,希望大家更加多地和各种机构合作,最后只会让我们大家在一个共享,相当于众智分时、共享经济的框架下,真正把我们的实体经济,把我们的企业走到数据时代的大浪潮当中去。
最后我想说一句话,连美国的GE,通用汽车公司的老总CEO去年就说了,前一天晚上,我躺在床上还清清楚楚知道我们整个大企业,当然是美国制造业的龙头了,还是制造型企业。但是早上一早起来,就发现GE已经是一个数据公司了。既然他们都可以这样说,我们在座的各个企业家一定一定也要走到数据经济的浪潮里面来,走到这条大数据的快车道上面去。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在 “神经网络与卡尔曼滤波融合” 的理论基础上,Python 凭借其丰富的科学计算库(NumPy、FilterPy)、深度学习框架(PyTorch、T ...
2025-10-23在工业控制、自动驾驶、机器人导航、气象预测等领域,“状态估计” 是核心任务 —— 即从含噪声的观测数据中,精准推断系统的真 ...
2025-10-23在数据分析全流程中,“数据清洗” 恰似烹饪前的食材处理:若食材(数据)腐烂变质、混杂异物(脏数据),即便拥有精湛的烹饪技 ...
2025-10-23在人工智能领域,“大模型” 已成为近年来的热点标签:从参数超 1750 亿的 GPT-3,到万亿级参数的 PaLM,再到多模态大模型 GPT-4 ...
2025-10-22在 MySQL 数据库的日常运维与开发中,“更新数据是否会影响读数据” 是一个高频疑问。这个问题的答案并非简单的 “是” 或 “否 ...
2025-10-22在企业数据分析中,“数据孤岛” 是制约分析深度的核心瓶颈 —— 用户数据散落在注册系统、APP 日志、客服记录中,订单数据分散 ...
2025-10-22在神经网络设计中,“隐藏层个数” 是决定模型能力的关键参数 —— 太少会导致 “欠拟合”(模型无法捕捉复杂数据规律,如用单隐 ...
2025-10-21在特征工程流程中,“单变量筛选” 是承上启下的关键步骤 —— 它通过分析单个特征与目标变量的关联强度,剔除无意义、冗余的特 ...
2025-10-21在数据分析全流程中,“数据读取” 常被误解为 “简单的文件打开”—— 双击 Excel、执行基础 SQL 查询即可完成。但对 CDA(Cert ...
2025-10-21在实际业务数据分析中,我们遇到的大多数数据并非理想的正态分布 —— 电商平台的用户消费金额(少数用户单次消费上万元,多数集 ...
2025-10-20在数字化交互中,用户的每一次操作 —— 从电商平台的 “浏览商品→加入购物车→查看评价→放弃下单”,到内容 APP 的 “点击短 ...
2025-10-20在数据分析的全流程中,“数据采集” 是最基础也最关键的环节 —— 如同烹饪前需备好新鲜食材,若采集的数据不完整、不准确或不 ...
2025-10-20在数据成为新时代“石油”的今天,几乎每个职场人都在焦虑: “为什么别人能用数据驱动决策、升职加薪,而我面对Excel表格却无从 ...
2025-10-18数据清洗是 “数据价值挖掘的前置关卡”—— 其核心目标是 “去除噪声、修正错误、规范格式”,但前提是不破坏数据的真实业务含 ...
2025-10-17在数据汇总分析中,透视表凭借灵活的字段重组能力成为核心工具,但原始透视表仅能呈现数值结果,缺乏对数据背景、异常原因或业务 ...
2025-10-17在企业管理中,“凭经验定策略” 的传统模式正逐渐失效 —— 金融机构靠 “研究员主观判断” 选股可能错失收益,电商靠 “运营拍 ...
2025-10-17在数据库日常操作中,INSERT INTO SELECT是实现 “批量数据迁移” 的核心 SQL 语句 —— 它能直接将一个表(或查询结果集)的数 ...
2025-10-16在机器学习建模中,“参数” 是决定模型效果的关键变量 —— 无论是线性回归的系数、随机森林的树深度,还是神经网络的权重,这 ...
2025-10-16在数字化浪潮中,“数据” 已从 “辅助决策的工具” 升级为 “驱动业务的核心资产”—— 电商平台靠用户行为数据优化推荐算法, ...
2025-10-16在大模型从实验室走向生产环境的过程中,“稳定性” 是决定其能否实用的关键 —— 一个在单轮测试中表现优异的模型,若在高并发 ...
2025-10-15