京公网安备 11010802034615号
经营许可证编号:京B2-20210330
真正的大数据应用体现在数据挖掘的深度
我今天的题目叫做大数据与数据驱动的智慧,首先我大概分成四个部分,谈谈我对大数据的认识,我想讲四个部分,第一个谈谈对大数据的认识,第二个大数据给我们带来什么挑战,第三个大数据应用,最后结合我们的主题讲讲数据和智能的关系,主要谈我的理解。
认识大数据
所谓大数据,它是我们信息化到一定阶段之后,必然出现的一个现象(自然现象),主要是由于信息技术不断的成本化,不断的廉价化,以及互联网及其延伸出来的,带来的信息技术无处不在的应用所带来的自然现象。
基本上有几个主要的驱动力:
一个是摩尔定律所驱动的指数增长模式;
第二个是我们技术低成本化驱动的万物的数字化;
第三个就是宽带移动泛在互联驱动的人机物广联连接,以及最后大规模的汇聚。
实际上大数据正在带来我们新的一拨数据化的浪潮,信息化的第三拨浪潮3.0。
如果我们回顾来看我们的过去的话,我们大体上能够看到两个明显的阶段的划分,一个是在从PC机开始进入市场以来,应该说带来了信息化的第一拨浪潮,这个浪潮差不多到90年代中期,这个时候的主要特征是单机应用为特征的数字化特征,我们主要完成简单的工作上最核心业务的数字化的工作,以PC机为主。
在过去的20年,90年代中期到现在,以联网应用为特征的网络化出现数据大集中,开始全国范围内的大联网等等,各个企业甚至走向企业全球,现在我们正在进入新的阶段,这个以数据的深度挖掘和融合应用为特征的智慧化,或者智慧化的现象。
到底什么是大数据,这两个定义从两个角度来谈:
一个从技术上来讲,我们的技术供给能力不足所面临的对象他称之为大数据,第二是从数据特征讲的数据,这是两个数据的定义。
应对大数据
大数据带来的是什么,我觉得最重要的东西可能带来的是思维模式的变化,如果回顾来看看我们过去,基本上定义这不一定是大家都能够接受,但是能够去查的话,定义出现所谓的大数据是在上个世纪的时候,97年的时候,SGI的首席科学家曾经用了这个词,他讲了数据提到大数据,特别强调从技术的视角来看,所谓的难获取,难预测,难处理,难组织四个难题。而从商业视角与大数据时代这本书的发行,开始探讨大数据在商业里面的应用,特别强调了几个很重要的特征,从随机样本到群体数据等这么一个变化。
这是我们经常讲的大数据的价值和意义,大体上分成几个方面。
一个通过大数据,我们能够认识复杂系统的新思维,促进经济转型,提升国家综合能力保障国家安全,提升政府的治理能力以及服务民生服务社会的能力。
这是我在几个场合讲的一个我对当前数据状况的一个认识,以及个人的一些见解,时间关系我不会详细的说,我觉得目前来讲,大数据开始还在炒作的阶段,至少到我们中国炒作的热潮还没有过去,所以我们相对于国外的炒作,国外开始进入我们还滞后了3到5年,真正的大数据应用应该体现在数据挖掘的深度。
原因有三点:首先有我们对数据认识不到位的原因,还有在当今的情况下一宣传大家都很热,成为了获取资源的途径。不聊大数据就拿不到项目,这也是一个很重要的原因;
第二个是大数据投入过热,资源浪费比较明显,这方面的投入特别是数据中心的投入为典型;
第三个就是我们认为大数据的理论和技术都还处于发展的早期,所以我们定义已经有了共识,但是对它的核心观点和命题还是有很多争议的,比如说大和小,到底怎么来定义,关联和因果的辩证性,所有都讲关联不求因果的吗,所有的数字化的东西相对于客观世界而言也仅仅是一个抽样而已,不管是它的时间密度,空间密度到底有多大。第二是不是有通用的技术体系也不太敏感,从我们做计算领域研究的人来讲,总是希望能够为数据的处理方式提供一种手段。数据科学的理论基础还没有,比如说传统的统计方法,他有一个数据统计的基础在本,我们是不是就用统计,用深度学习,还有没有其他更好的理论上的突破,这个应用了相对超前理论和技术的发展,这样使得很多数据分析的结论基本上缺少因果,缺少理论知识,都是用靠关联关系建立起来的。有时候这个使用还是需要适当审慎的。最后一个大数据这个现象可能会长期的存在,对我们计算能力的挑战也是永恒的。
我顺便举两个历史上大人物说过的话,这是过高的估计了当时的计算。
一个是IBM当时的首席认为世界上是由几台计算机就够了,这个大家经常当成他的笑话来说,比尔盖茨也说640K的内存就差不多了,我想数据的增长会远远的超出我们处理能力的增长,所以我们很多的数据是做不到的。比如说2016年美国存储软件供应商发布的,刚才我看有人给我发一个他们做的冷数据存储,冷数据你还处理过,但有的数据你碰都没碰把它存储起来,这个对我们的挑战也是很大的。我们把一个地球搞清楚,把科学搞清楚,很多数据我估计真的到宇宙发生变化的时候也未必能够完全处理清楚。
第二个数据带来的挑战,我是把它分成两大类,一类下面这类有大数据的管理,主要指的计算机的技术,讲计算机类的技术,第二是大数据的分析方法,怎么样有理论方法去分析它,讲这两个。大体上有这么几个东西。管理上一个是数据库管理系统,面临一系列的挑战,我们传统的关系型关系库追求数据的一致,系统的高性能。没有预先定义的模式使得一致性难以支持,高性能也难以实现。数据库传统发展的理念也开始完全由一个通用的数据库开始追求领域通用,这是一部分。
这是数据的管理本身,那么数据的处理,怎么处理,由于单台计算设备不管性能有多高,它也不可能把数据处理完,所以说并行处理就成为不二的选择,因为数据量太大了。要并行处理就面临不同数据的需求,比如说批处理,流处理,图处理,当然一系列的东西大家都在尝试,也可能不存在通用的数据处理方法,或者数据处理平台能够适应所有类型的数据,是不是能够做到,现在目前来看也没有。
一种可能的途径,比如说能不能通过软件的定义的方式,我们能够把各种能力集中到一起,然后在上面透过不同的数据处理的需求,定义出不同的平台,也就是说我要实现这种平台把它柔和到一起的这种可定制性,可剪裁性能不能做到。还有云计算中心,现在越来越多的大数据依托于云计算中心。
第二部分大数据的分析方法,可能和数学分析方法更紧密的相关,怎么能够把我们理论方法体系建立起来,在不同领域进行应用。
我们大数据分析面临着一对挑战:
一个是分析对象的改变,过去是预处理后数据我们现在是原始数据,以前是样本数据,现在是全数据,以前是单源单模态数据,现在是多源多模态数据。就是分析对象发生了变化;
第二是分析的需求发生变化,我们需要更加准确的高精度分析,还有复杂关联的深层特征,还有大规模的复杂关联;
第三个变化分析模型能力的变化,我们需要追求从表达力受限的低维数据,到高信息量的高维数据,还有弱表达力的简单模型到强表达力的复杂模型,目前来看,我们很多的大数据分析方法都主要是可视化的展现,统计分析,机器学习的技术;
再一个大数据可能在这种情况下,计算机领域也探讨了很多,现在的以通用性考虑为主的IT体系很难满足大数据的需求,有必要考虑对整个IT架构进行革命性的重构。
应用大数据
第三应用大数据有一些成功的案例我就不细说了,我做了一个分类,一类是互联网类的,这主要是指公共平台的,物联网类主要是有助的,做的各种传感器,组织业务是指每一个企业机构他们自己内部的以结构化数据为核心的融合的各种各样的组织业务的数据。还有一个科学实验的数据,大体分成这样几个。大家可以看到这几类数据都有很多成功的案例,在这我也不细讲了。
大数据应用,大家基本上认为有三个层次。
一个首先第一个层次只是关注到底当前发生了什么,把发展的态势曲线给你描述出来,呈现发展的历程;
第二是预测,能够在当前分析的基础之上,预测它未来可能会发生什么,呈现事物发展的这么一个趋势。比如说流感的预测,奥斯卡的预测大概都属于这类;
第三类就是所谓的指导性,指导性的就当前的态势,如果你做一个动作,会产生什么后果,这就便于当前的态势要做出决策,不仅是预测未来怎么样,而是做一个动作以后,做一个决策以后,会不会影响未来的结果。
所以从当前来看我以为当前的大数据应用呈现这么几个特点:
一个从应用层次上讲,应该说描述性,预测性的应用还是比较多的,真正的指导性的应用偏少;
第二从数据源的角度,基于单一数据源的数据偏多,基于多态数据源偏少,有什么数据整什么数据,包括今天发布了很多题目,数据摆在这你找去,根据我的应用需求,我把各种数据柔到一块这种应用也偏少,有时候前几年看了很多竞赛题目都不错,真正呈现大数据分析的非常让你眼睛一亮的这种特征的东西还是偏少,他没有应用需求。
怎么根据我的要求找这种数据,这种应用偏少,当然对数据研究缺少数据源也是很重要的理论。从需求导向,也是根据我到底有什么问题,在问题里面我想解决什么问题,我提出解决方案,这样的应用这种构建模型的应用也偏少,因此从这个意义上讲,我以为大数据应用还仅仅在于初级阶段,这也就是我刚才我讲的,我们从现在开始,也许我们正在进入信息化的第三拨浪潮,这个阶段会持续多少年,我不知道,但我乐观的估计,大胆的揣测一下我相信应该有十几,二十年,这也有一个依据,这个依据我在报告的时候也会讲一个东西,经济学上有一个传播理论,每一个传播大概是50年左右,包括早期的蒸汽机引领了50年,汽车也引领了50年,我们真正的信息领域引领这50年是从上个世纪50年代,以微电子网络才开始,所以信息技术已经发展了几十年了,真正在经济里面占据主要的驱动力,也就从90年代开始,大家算算90年加50,我们可以到2014年所以在未来的20多年大体上还是IT的天下。
数据和智能
最后讲讲数据和智能,我们谈的最多的是数据驱动的智能时代正在到来,我们来回顾一下人工智能,人工智能这个词早期有非常明确的定义,他有它的做法,人工智能到现在为止也正在接受第三个高潮,早期的人工智能都是硬编码,所谓的智能都是程序,就是高级程序设计,通过高级的编成方法,后来长期的发展还是走的基于规则的智能,实际上就是基于逻辑的,构建一个规则库,构建一个事实库,加上逻辑推理,当时人工智能里面也很长时间受到批评,认为人工智能没有产生什么实际的效果,实际上有一批人工智能还是不错的,就是专家系统,专家系统真正解决了很多当时存在的问题。
我觉得现在当前我们正在走的这拨人工智能,它和过去的做法是不一样的,这是数据驱动的智能,它是利用机器学习,统计分析的方法从数据中自己向上发现规律,前期先构建规则,规则驱动它不太一样,走的这样一个途径,今年最热的就是阿尔法狗,在最难的棋内战胜了人类,当时网上炒的很多很多,很多专家也没出来说话,所以如果我说这个事情对于人类的威胁,我牙根就不认为它有什么威胁,他永远是为做事的,大家想想过去每次技术进步,就把我们人类的劳动减少多少,机械把我们的体力劳动减少多少,不过就是计算把我们的智力劳动,很多烦琐的劳动把它减少了,他离人工智能还远的很。
最后谈到一些若干概念,当前关于智能或者叫做人工智能,有很多提法,人工智能是最早的,一直在谈,我一直认为人工智能是有它当初严格的定义的,过去人工智能做的东西,现在我们写的人工智能技术,前沿技术我真的不认为所谓人工智能前沿技术是什么,有人曾经用过机器智能,这个走的路径应该说是一种结合,但更多的还是基于规则的多一点。
现在也有人称之为数据智能,我们叫做计算智能,李老师也谈到了,是有一个狭义的定义的,神经网演化计算,曾经用过的词,我们为什么用这个东西呢,我个人还是觉得数据驱动的智能,最终呈现智能的方式,还是算出来的。实际上本质上是把人的智能的问题,把它转化成计算的问题,这个计算的问题要么是逻辑推理算的,有一个规则去驱动的,要么是通过数据处理的方式从数据里面弄的实际上它本身还不算是智能,所以我们为什么想选择智能,我觉得这也挺好,我觉得站在计算领域的角度总希望用这个角度来说话,我讲大数据的时候我曾经说过,我说大数据能够出现是因为计算智能要解决它还得靠计算智能,甚至你说你可能有一个模型的方法出来能够用量级的计算,但不管有多大的量级,没有计算机,你人靠手算是永远算不出来的,所以还得靠工具克服,因此还是计算问题,我们更倾向于把它叫做计算所产生的智能,当然是基于数据所产生的智能。
第二个问题是机器计算机真的能拥有人的智能吗?
在座的大部分都知道,它不可能,现在又有一个说法,类人智能和类脑智能,我们现在国家在搞脑计划,有内脑计算,我们现在的机器是没有智能的,它是把人看成一个黑客,互联网上提一个问题都有,这个智能是像人一样,感知相对容易,认知且难且难,所以我觉得内脑智能应该是什么,我们真的把人的科学上的人脑的科学上的东西搞清楚了,然后模拟这个东西做一套东西,我觉得这叫内脑智能,给你一个行为,好像他能解决问题,只不过是靠计算机强大的计算能力,把一个所谓的这种问题变成了一个数据处理的问题,计算的问题而已。所以我觉得类人智能发展大体分成三个层次,第一个是传统的人工智能走的路,一个软件加上一个知识库,在上面做推理,这是一种。第二种如果说我们能够形成一个自演化的知识库,要靠数据的方式解决,我从数据里面能够不能不断的凝练一些东西出来,知识库能够自己去增长能不能做到这一点,我想如果能够做到这个,就能够形成第二层次的智能,这个东西要从我们数据汇集里面得到想要的结果。
我想第三个层次,能不能自演化的软件,加上自演化的过程,大家知道我们现在所有的软件,一旦写好以后,编译结束以后是改不了的,自演化的软件能够机器自己改代码可能吗?现在肯定是不可能的,但我们也尝试,比如说用数据的方法来改它有大量的软件片断存在,我能不能在某种特定的环境之下,解决软件的一些行为的改变,这是一个梦,这个梦是计算机科学家长期的梦,过去软件智能化就是想解决这个问题,但实际上没有做成,那是走的规则方式未来这个如果能够解决,我觉得类脑智能就更像,机器能够改代码,现在我们组织一个团队想尝试这个事情。
机器自己能够改代码,我想在我有生之年看不到了,从我本意来讲也不希望这个情况出现。如果真的这个情况出现了,世界就大乱了,好,谢谢。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在 MySQL 实际应用中,“频繁写入同一表” 是常见场景 —— 如实时日志存储(用户操作日志、系统运行日志)、高频交易记录(支付 ...
2025-10-30为帮助教育工作者、研究者科学分析 “班级规模” 与 “平均成绩” 的关联关系,我将从相关系数的核心定义与类型切入,详解 “数 ...
2025-10-30对 CDA(Certified Data Analyst)数据分析师而言,“相关系数” 不是简单的数字计算,而是 “从业务问题出发,量化变量间关联强 ...
2025-10-30在构建前向神经网络(Feedforward Neural Network,简称 FNN)时,“隐藏层数目设多少?每个隐藏层该放多少个神经元?” 是每个 ...
2025-10-29这个问题切中了 Excel 用户的常见困惑 —— 将 “数据可视化工具” 与 “数据挖掘算法” 的功能边界混淆。核心结论是:Excel 透 ...
2025-10-29在 CDA(Certified Data Analyst)数据分析师的工作中,“多组数据差异验证” 是高频需求 —— 例如 “3 家门店的销售额是否有显 ...
2025-10-29在数据分析中,“正态分布” 是许多统计方法(如 t 检验、方差分析、线性回归)的核心假设 —— 数据符合正态分布时,统计检验的 ...
2025-10-28箱线图(Box Plot)作为展示数据分布的核心统计图表,能直观呈现数据的中位数、四分位数、离散程度与异常值,是质量控制、实验分 ...
2025-10-28在 CDA(Certified Data Analyst)数据分析师的工作中,“分类变量关联分析” 是高频需求 —— 例如 “用户性别是否影响支付方式 ...
2025-10-28在数据可视化领域,单一图表往往难以承载多维度信息 —— 力导向图擅长展现节点间的关联结构与空间分布,却无法直观呈现 “流量 ...
2025-10-27这个问题问到了 Tableau 中两个核心行级函数的经典组合,理解它能帮你快速实现 “相对位置占比” 的分析需求。“index ()/size ( ...
2025-10-27对 CDA(Certified Data Analyst)数据分析师而言,“假设检验” 绝非 “套用统计公式的机械操作”,而是 “将模糊的业务猜想转 ...
2025-10-27在数字化运营中,“凭感觉做决策” 早已成为过去式 —— 运营指标作为业务增长的 “晴雨表” 与 “导航仪”,直接决定了运营动作 ...
2025-10-24在卷积神经网络(CNN)的训练中,“卷积层(Conv)后是否添加归一化(如 BN、LN)和激活函数(如 ReLU、GELU)” 是每个开发者都 ...
2025-10-24在数据决策链条中,“统计分析” 是挖掘数据规律的核心,“可视化” 是呈现规律的桥梁 ——CDA(Certified Data Analyst)数据分 ...
2025-10-24在 “神经网络与卡尔曼滤波融合” 的理论基础上,Python 凭借其丰富的科学计算库(NumPy、FilterPy)、深度学习框架(PyTorch、T ...
2025-10-23在工业控制、自动驾驶、机器人导航、气象预测等领域,“状态估计” 是核心任务 —— 即从含噪声的观测数据中,精准推断系统的真 ...
2025-10-23在数据分析全流程中,“数据清洗” 恰似烹饪前的食材处理:若食材(数据)腐烂变质、混杂异物(脏数据),即便拥有精湛的烹饪技 ...
2025-10-23在人工智能领域,“大模型” 已成为近年来的热点标签:从参数超 1750 亿的 GPT-3,到万亿级参数的 PaLM,再到多模态大模型 GPT-4 ...
2025-10-22在 MySQL 数据库的日常运维与开发中,“更新数据是否会影响读数据” 是一个高频疑问。这个问题的答案并非简单的 “是” 或 “否 ...
2025-10-22