
你不知道的大数据利益链背后的秘_数据分析师
“数据就像是一个神奇的钻石矿,在其首要价值被发掘之后仍能不断产生价值。”在维克托看来,数据的真实价值就像漂浮在海洋中的冰山,第一眼只能看到冰山一角,而绝大部分则隐藏在表面之下。
大数据能创造切实的真金白银
国内外很多科技公司都试图潜入冰山底部,将技术党手里的数据变成切实的真金白银。
“银行最值钱的是什么?数据!阿里巴巴最值钱的是什么?数据!腾讯最值钱的是什么?用户数据!都是数据。”在贵阳大数据交易所总裁王叁寿看来,如果未来一边是“互联网+”,另一边就是“大数据+”。
大数据产业联盟会长董力明对此也表示认同,互联网和大数据将是未来社会变革的两个非常重要的引擎,几乎会变革所有的行业。大数据目前可能只是改变了部分行业,比如电商、通讯业,下一步可能会改变O2O,改变传统的餐饮娱乐行业,将来工业、农业、金融投资相关的行业都会被大数据改变。
“互联网同时会产生非常多的数据,人类社会的数据量是每12个月到18个月翻一番,你能够想象到未来的数据量有多大。谁能够解决这个巨大的挑战,谁就能从中创造出价值,这也是为什么互联网公司、技术类公司都这么关注大数据、积累大数据资产和大数据技术的原因。”董力明向《经济》记者表示。
大数据跟政治、经济、商业、文化、生活方方面面都有关系。每个人的行踪都是一种数据,呼吸是一种数据,就餐行为、交通习惯甚至刷一张信用卡都是数据。
随着数据样本越来越多,大数据会变成一个更加广泛的应用工具。“每一个事物、每一个人将来都可以用数据描述出来。”中金标准数据公司总经理郝文嘉向《经济》记者表示,整个社会依靠数据而连接,变成数据驱动型的国家,这是必然趋势。
在王叁寿看来,这种趋势为数据企业创造了巨大的生存空间。“大数据这个行业是唯一一个能弯道超车的行业,因为目前没有哪家公司能垄断数据行业,唯独大数据这个行业可以绕过行业巨头。”
数据的价值需要通过应用才能体现出来。“我最看好几个领域的数据,一是金融;二是医疗大数据;接下来是能源大数据、交通大数据和一些商品、物流大数据,这些领域的大数据是比较容易变现的,有很强的买单能力。”王叁寿说,整个大数据产业,可以做到一万亿、两万亿,甚至三万亿这样的产值。”
中国通讯协会常务副理事长张新生也向《经济》记者表示,未来在医疗、工业、企业营销、城市建设等方面,大数据都有着很大的应用空间。
郝文嘉透露称,目前把大数据应用最好的还是金融行业,“金融领域是对大数据领域接受度最高的,可能是因为银行、券商、基金公司对数据的渴求,他们对数据非常敏感,接受度也很高。”
而在董力明看来,大数据对于行业的作用往往取决于行业本身的价值和体量,“比如说电信行业、金融行业,本身体量就很大,大数据给它带来的价值也就很可观”。
数据采集的成本是递减的
经过了几年的蛰伏,数据公司开始集中浮出水面。记者了解到,目前国内大概有800多家大数据公司,形形色色大概分了接近30多个品种,涵盖了金融大数据、医疗大数据、能源大数据、交通大数据等多个领域。
“现在成立了很多交易的平台,中关村就有,它帮你抓取数据,自己建个平台做搜索。”张新生透露称,目前建立这种平台的技术已经成熟,就看谁的方法更具创新性。
除了这些平台公司抓取来的资源,大部分数据资源都掌握在政府部门、互联网企业、运营商、金融机构里,例如百度做的是社会数据,腾讯做的是社交数据,阿里巴巴做的是电子商务。每个公司掌握的数据类型都不太一样。
在张新生看来,数据走向商品要经历固化信息痕迹、提取数据价值、分析挖掘、可视化,最后到应用这些流程。
而在目前的大数据产业链条上,主要有四个梯队:第一梯队主要做IT基础建设,例如IBM、华为、中金;第二梯队是做数据存储、软硬件服务;第三梯队做大数据应用;第四梯队做大数据交易。
这些梯队中,有先来者,也有后来者。
“我们研究了那么多年,已经到了整合弥补数据缺陷阶段,其实从社会各方面来说,业内也有很多人在做这种数据,大家形成了共识,尽快把这条链建立起来。”郝文嘉说。
而在王叁寿看来,现在已经到了爬上山顶看太阳的阶段,“在大数据领域,创业就像爬泰山一样,前几年所有做大数据的公司都在爬山,这两年陆陆续续地开始有一些大数据公司爬到山顶上去了”。
“过去靠弄点儿数据就想去赚钱并不容易。但我们觉得这个趋势没问题就一直坚持,最开始在2011-2013年一分钱没赚,从2014年开始盈利,2015年开始有个爆发期,北京银行现在一个支行买我的大数据终端,一个终端30万一年。”据王叁寿透露,现在有一些数据公司已经开始赚钱了。
前几年就开始做数据的公司无疑选择了一个非常好的创业时间点,“现在再去重新汇集数据已经来不及了,再过三五年市场变天了”。在他看来,大数据这个行业想投机取巧是不行的,它需要很长时间的积累。
王叁寿认为,大数据公司能做得好要取决于三个方面:第一,要有很广泛的合法的数据采集渠道;第二,要有非常强的数据建模能力;第三,要有设计应用场景的能力,考虑如何让一些机构用了数据之后可以购买更廉价的机票。
那么数据采集的成本如何?“这个成本其实是一次性的成本,你只要把数据采集渠道打通了,以后就像水管一样,每天就往里面流水,流进来流出去,关键建水池和铺管道这个过程是需要时间的。”王叁寿说,数据采集的成本是递减的。
大数据收益由平台和卖方四六分成
在董力明看来,数据采集、数据存储最后还是要实现数据交易,否则就没有意义。而在我国,目前仅仅成立了贵阳大数据交易所一个平台,其有望成为数据领域的深交所、上交所。
“贵阳大数据交易所是大数据产业发展过程中的执牛耳者。”王叁寿说,没有大数据交易所谁都没有办法去整合中国的大数据产业,“政府数据公开总要有个渠道,这个口子在哪里呢,不是说几个公司就把它公开了,这是不行的,政府自己直接公开也不行,因为需要做清洗、脱敏、建模、分析,所以交易所也是政府部门日后公开数据的一个出口。”
由此,大数据交易链条的三个方面都已具备:数据卖方、平台和数据买方。据王叁寿介绍,交易所分得数据收益的40%,60%将返给数据卖方。
那么当大数据脱下技术外衣,它的交易流程是什么样的,谁愿意买,买的又是什么?为此,贵阳大数据交易所相关负责人也向记者举了一个生动的例子进行说明。
“大家好,我是一串数据,出生时被命名‘李丽’,记录了贵阳市民李丽在医院就诊的历史信息。今年4月份,我和兄弟姐妹被卫生部门送进一个大数据交易平台。进入平台之前,卫生部门给我们洗了一次澡。据说,这叫‘数据脱敏’。”在经过数据脱敏后,和李丽相关的私人信息都不见了,数据代号由“李丽”变成“X”,只记录了一位不知名的44岁的贵阳女性的病史。
脱敏成功,该数据正式进大数据交易所了。这个听起来“高大上”的交易所,和淘宝一样,是一个虚拟的交易平台。“刚进门,我听见卫生部门和平台的管理方在商量,谈了我到底值多少钱。等他们定完价,我就被标上价格,进入平台展示窗口,等待买家。最终,贵阳市一家制药公司看中我,价格也合适,老板把我和数以百万计的兄弟姐妹一起打包买走了。具体交易额是多少?保密!收益由平台和卫生部门四六分成。”
到达制药公司后,通过深度挖掘系统,制药公司有针对性地推出新药,最后卖给“李丽”这样的市民。
数据交易流程都与以上例子类似,但是在数据来源、种类、重要程度都不同的情况下,大数据如何定价就成了一个问题。
王叁寿表示,数据将进行自动计价连续交易,交易所将针对每一个数据品种设计自动的计价公式,数据买方可以通过交易系统查询每一类数据的实时价格。“当数据买方应约价等于或高于卖方挂牌价时,按照交易所自动撮合成交,成交价为买方应约价格;对于不能自动成交的应约,卖方可选择能接受的应约与其成交,成交价为买方应约价;因为数据买方不一定需要全部的数据样本,这个时候,我们系统将对数据设定拆分原则,系统自动报价,而后自动撮合成功成交。”
并不是所有人都可以在平台上购买这些大数据。记者了解到,交易所对数据买方也进行了一些限制,暂时不允许任何个人购买交易所的数据。同时在监管不健全的情况下,外资数据买方购买数据之前需要进行资格审查。从这个角度来说,也在一定程度上保证了数据的流向。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
机器学习解决实际问题的核心关键:从业务到落地的全流程解析 在人工智能技术落地的浪潮中,机器学习作为核心工具,已广泛应用于 ...
2025-09-09SPSS 编码状态区域中 Unicode 的功能与价值解析 在 SPSS(Statistical Product and Service Solutions,统计产品与服务解决方案 ...
2025-09-09CDA 数据分析师:驾驭商业数据分析流程的核心力量 在商业决策从 “经验驱动” 向 “数据驱动” 转型的过程中,商业数据分析总体 ...
2025-09-09R 语言:数据科学与科研领域的核心工具及优势解析 一、引言 在数据驱动决策的时代,无论是科研人员验证实验假设(如前文中的 T ...
2025-09-08T 检验在假设检验中的应用与实践 一、引言 在科研数据分析、医学实验验证、经济指标对比等领域,常常需要判断 “样本间的差异是 ...
2025-09-08在商业竞争日益激烈的当下,“用数据说话” 已从企业的 “加分项” 变为 “生存必需”。然而,零散的数据分析无法持续为业务赋能 ...
2025-09-08随机森林算法的核心特点:原理、优势与应用解析 在机器学习领域,随机森林(Random Forest)作为集成学习(Ensemble Learning) ...
2025-09-05Excel 区域名定义:从基础到进阶的高效应用指南 在 Excel 数据处理中,频繁引用单元格区域(如A2:A100、B3:D20)不仅容易出错, ...
2025-09-05CDA 数据分析师:以六大分析方法构建数据驱动业务的核心能力 在数据驱动决策成为企业共识的当下,CDA(Certified Data Analyst) ...
2025-09-05SQL 日期截取:从基础方法到业务实战的全维度解析 在数据处理与业务分析中,日期数据是连接 “业务行为” 与 “时间维度” 的核 ...
2025-09-04在卷积神经网络(CNN)的发展历程中,解决 “梯度消失”“特征复用不足”“模型参数冗余” 一直是核心命题。2017 年提出的密集连 ...
2025-09-04CDA 数据分析师:驾驭数据范式,释放数据价值 在数字化转型浪潮席卷全球的当下,数据已成为企业核心生产要素。而 CDA(Certified ...
2025-09-04K-Means 聚类:无监督学习中数据分群的核心算法 在数据分析领域,当我们面对海量无标签数据(如用户行为记录、商品属性数据、图 ...
2025-09-03特征值、特征向量与主成分:数据降维背后的线性代数逻辑 在机器学习、数据分析与信号处理领域,“降维” 是破解高维数据复杂性的 ...
2025-09-03CDA 数据分析师与数据分析:解锁数据价值的关键 在数字经济高速发展的今天,数据已成为企业核心资产与社会发展的重要驱动力。无 ...
2025-09-03解析 loss.backward ():深度学习中梯度汇总与同步的自动触发核心 在深度学习模型训练流程中,loss.backward()是连接 “前向计算 ...
2025-09-02要解答 “画 K-S 图时横轴是等距还是等频” 的问题,需先明确 K-S 图的核心用途(检验样本分布与理论分布的一致性),再结合横轴 ...
2025-09-02CDA 数据分析师:助力企业破解数据需求与数据分析需求难题 在数字化浪潮席卷全球的当下,数据已成为企业核心战略资产。无论是市 ...
2025-09-02Power BI 度量值实战:基于每月收入与税金占比计算累计税金分摊金额 在企业财务分析中,税金分摊是成本核算与利润统计的核心环节 ...
2025-09-01巧用 ALTER TABLE rent ADD INDEX:租房系统数据库性能优化实践 在租房管理系统中,rent表是核心业务表之一,通常存储租赁订单信 ...
2025-09-01