京公网安备 11010802034615号
经营许可证编号:京B2-20210330
融合?重构?区块链和大数据关系竟如此简单
最近一段时间,区块链和大数据这两大热词正在被越来越多地放在一起,随着各种言论的增多,两者的关系开始变得扑朔迷离。区块链将与大数据融合发展?区块链最终将重构大数据?围观群众纷纷表示想弄个明白。
“要弄清区块链和大数据的关系,首先要从两者的不同开始。”从事互联网技术研究20余年,人称互联网技术相面师的中国信息通信研究院云计算与大数据研究所所长何宝宏抛出了这一观点。他认为,区块链和大数据技术存在一定的共性,但是两者在技术处理方式上,更多的是不同。
何宝宏 中国信息通信研究院云计算与大数据研究所所长
何宝宏表示,区块链技术是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式,区块链处理的数据更小,是细致的处理方式。而大数据管理的是海量数据,要求广度和数量,处理方式上也会粗糙,重点是统计分析(如下图)。
“这个时代最大的特点就是变化。”对于区块链的兴起引发的业界的讨论、思考和担忧,何宝宏认为,我们擅长关注变化的东西,但是实际上很多变化背后的一些东西是不变的,比如——技术的规律。因而,在探讨区块链和大数据的关系时,我们需要跳出技术看技术。
客观而言,作为一个颠覆式的新兴技术,区块链要应用在大数据场景下,其本身还还不够成熟,需要进一步的研究而探讨。而区块链是否可能重构大数据?何宝宏认为基本不存在这一可能,因为大数据针对的是非结构化的数据,而区块链处理的是结构化数据。“两者的目标数据不同,要解决的问题也不同。”
在4月18日-19日即将于北京国家会议中心召开的“2018大数据产业峰会”上,何宝宏将发表题为“预见大数据的2018”的演讲,就大数据、区块链等技术发展背后的规律,以及2018年的市场动态和趋势进行展望。下面,小编收集了何宝宏博士近期的精彩观点,供大家提前养养眼、洗洗脑。
区块链:互联网的“大补丁”
草根、全球、自治、分布、开放、透明、对等、匿名、分享……二十年前,人们如此形容互联网;今天,这些却成为了区块链身上的标签。
这是为何?“区块链是互联网的发展和延续,是互联网的一块大补丁。”何宝宏认为,区块链颠覆不了互联网,更颠覆不了世界。如果非要认为区块链可以颠覆世界,只能说那可能是你的世界太小了。
要为区块链相面,我们能发现很多问题,如:性能低、能耗高、生态链、安全防护、隐私保护、监管缺失、标准缺失、不务正业等。“以我20多年的互联网相面经验来说,但凡是有这些问题的技术都是‘好技术’,这些缺点随着时间的推移都是可以克服和解决的。所以,每当有人批评区块链这些缺点时,我都会说这是优秀技术的典型特征。”
相比较区块链这样的颠覆式技术,何宝宏认为那些注定要失败的技术往往具备以下特征:
1、声称包治百病,一句话说不清楚它希望解决的具体问题;
2、概念模糊,一句话说不清楚它的基本思想和原理,与现有技术的明显区别或边界;
3、准备从主流市场,最赚钱的市场或存量市场开始;
4、需要建立以我为中心的生态链(技术富二代除外);
5、看起来过于完美,没有明显的取舍,回避需要付出的技术代价;
6、不考虑摩尔定律是否支持;
7、经济学规律模糊,历史案例牵强。
区块链的本质是分布式账本。何宝宏认为,分布式账本是“刚需”。过去的几百年,我们一直在使用集中式的记账方式,没有一种手段能够支持高效的分布式记账,直到区块链的出现。
“成年后的技术大多活成自己讨厌的样子。”区块链的特点是去中心化、防篡改、匿名性,但是随着其不断成熟和落地,这些特征需要从更深层次去理解。
分布式≠去中心
分布式不等于去中心。“高喊去中心的大多数是自己想成为新的中心。”何宝宏以比特币为例,其代码控制在Core小组手中,算力是高度集中的。同时,有报告显示,40%的比特币实际上是集中在1000个人手里,而另外一个报告则说,96.53%的比特币归属于4.11%的地址。因而,随着区块链的发展,去中心正在变成多中心。
防篡改≠不可修改
防篡改不等于不可修改。在何宝宏看来,人会犯错,数据因而也会出错。在会计体系里,不允许做假账但是允许改错账。在传统的数据库技术中,修改是很容易实现的,因而需要一些管理手段来防止篡改。但是今天,区块链技术是不可修改,那么如果数据出错了怎么办?因而需要在不可篡改的技术上加上“可修改”。
保护隐私≠匿名
保护隐私不意味着一定要匿名。何宝宏认为,匿名是保护隐私的一种方法和手段,但不是绝对。二十多年前的互联网是匿名的、全球化的,谁也关不掉,共享且自治。然而,到了今天,登陆一个网站,你就需要输入验证码,以证明自己是人,而不是机器或其他。
对共识机制难有共识
“对共识机制,难有共识。”何宝宏说,我们需要共识,但我们的共识机制本身却是分裂的、碎片化的。我们用POW比谁劲大,用POS比谁钱多,这是典型的从原始社会过渡到资本主义社会的“玩法”。后来钱多了人也太多了,于是又用DPOS搞出了代理人机制。
共识机制如何形成共识,属于控制层面范畴,这个共识特别难。要有这样的共识就必须要有共识之母,一个共识前面还得有一个共识才能形成后面的共识,共识也是链式结构的,信任也是链式结构的。因而,说区块链是去信任的,那是不可能的。
小产业、大变革
从技术的角度上看,区块链就是将原来的单个账本变成了现在的多个账本。原来,所有的数据库之间是主从关系,账本只有一个;今天多个数据库之间是对等关系,账本从一个变成多。
从一个会计到多个会计,以前记账可以读、写、改、删,今天记账只有读和写;以前记账要给会计发工资,进行外部激励,我们今天自己激励就可以了;以前所有公司的商务和财务都是分离的,付账过程特别繁琐;今天的智能合约是商务财务一体化,这就颠覆了我们很多的想法。
以前,代码就是技术;今天,代码变成了金融产品,所以就出现了新的机会。以前,数据主要是指信息,技术则就是如何帮它更广泛的传播;现在数据越来越成为资产,技术的走向就要发生很大的变化。
以前,二进制代码表达的是信息;今天,二进制代码表达的是一种财产。数据即资产,资产即数据。当二进制代码代表资产,技术的核心要义就要走向保护,要去管理和控制。技术的目的从最大限度的传播,转为考虑如何把代码圈起来。
区块链是小产业、大变革。它颠覆的是我们的经济、经济运营最底层的复式记账法。我们用了几百年的复式记账法将演进为三式记账法。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据工作的全流程中,数据清洗是最基础、最耗时,同时也是最关键的核心环节,无论后续是做常规数据分析、可视化报表,还是开展 ...
2026-03-20在大数据与数据驱动决策的当下,“数据分析”与“数据挖掘”是高频出现的两个核心概念,也是很多职场人、入门学习者容易混淆的术 ...
2026-03-20在CDA(Certified Data Analyst)数据分析师的全流程工作闭环中,统计制图是连接严谨统计分析与高效业务沟通的关键纽带,更是CDA ...
2026-03-20在MySQL数据库优化中,分区表是处理海量数据的核心手段——通过将大表按分区键(如时间、地域、ID范围)分割为多个独立的小分区 ...
2026-03-19在商业智能与数据可视化领域,同比、环比增长率是分析数据变化趋势的核心指标——同比(YoY)聚焦“长期趋势”,通过当前周期与 ...
2026-03-19在数据分析与建模领域,流传着一句行业共识:“数据决定上限,特征决定下限”。对CDA(Certified Data Analyst)数据分析师而言 ...
2026-03-19机器学习算法工程的核心价值,在于将理论算法转化为可落地、可复用、高可靠的工程化解决方案,解决实际业务中的痛点问题。不同于 ...
2026-03-18在动态系统状态估计与目标跟踪领域,高精度、高鲁棒性的状态感知是机器人导航、自动驾驶、工业控制、目标检测等场景的核心需求。 ...
2026-03-18“垃圾数据进,垃圾结果出”,这是数据分析领域的黄金法则,更是CDA(Certified Data Analyst)数据分析师日常工作中时刻恪守的 ...
2026-03-18在机器学习建模中,决策树模型因其结构直观、易于理解、无需复杂数据预处理等优势,成为分类与回归任务的首选工具之一。而变量重 ...
2026-03-17在数据分析中,卡方检验是一类基于卡方分布的假设检验方法,核心用于分析分类变量之间的关联关系或实际观测分布与理论期望分布的 ...
2026-03-17在数字化转型的浪潮中,企业积累的数据日益庞大且分散——用户数据散落在注册系统、APP日志、客服记录中,订单数据分散在交易平 ...
2026-03-17在数字化时代,数据分析已成为企业决策、业务优化、增长突破的核心支撑,从数据仓库搭建(如维度表与事实表的设计)、数据采集清 ...
2026-03-16在数据仓库建设、数据分析(尤其是用户行为分析、业务指标分析)的实践中,维度表与事实表是两大核心组件,二者相互依存、缺一不 ...
2026-03-16数据是CDA(Certified Data Analyst)数据分析师开展一切工作的核心载体,而数据读取作为数据生命周期的关键环节,是连接原始数 ...
2026-03-16在用户行为分析实践中,很多从业者会陷入一个核心误区:过度关注“当前数据的分析结果”,却忽视了结果的“泛化能力”——即分析 ...
2026-03-13在数字经济时代,用户的每一次点击、浏览、停留、转化,都在传递着真实的需求信号。用户行为分析,本质上是通过收集、整理、挖掘 ...
2026-03-13在金融、零售、互联网等数据密集型行业,量化策略已成为企业挖掘商业价值、提升决策效率、控制经营风险的核心工具。而CDA(Certi ...
2026-03-13在机器学习建模体系中,随机森林作为集成学习的经典算法,凭借高精度、抗过拟合、适配多场景、可解释性强的核心优势,成为分类、 ...
2026-03-12在机器学习建模过程中,“哪些特征对预测结果影响最大?”“如何筛选核心特征、剔除冗余信息?”是从业者最常面临的核心问题。随 ...
2026-03-12