京公网安备 11010802034615号
经营许可证编号:京B2-20210330
你不知道的大数据利益链背后的秘_数据分析师
“数据就像是一个神奇的钻石矿,在其首要价值被发掘之后仍能不断产生价值。”在维克托看来,数据的真实价值就像漂浮在海洋中的冰山,第一眼只能看到冰山一角,而绝大部分则隐藏在表面之下。
大数据能创造切实的真金白银
国内外很多科技公司都试图潜入冰山底部,将技术党手里的数据变成切实的真金白银。
“银行最值钱的是什么?数据!阿里巴巴最值钱的是什么?数据!腾讯最值钱的是什么?用户数据!都是数据。”在贵阳大数据交易所总裁王叁寿看来,如果未来一边是“互联网+”,另一边就是“大数据+”。
大数据产业联盟会长董力明对此也表示认同,互联网和大数据将是未来社会变革的两个非常重要的引擎,几乎会变革所有的行业。大数据目前可能只是改变了部分行业,比如电商、通讯业,下一步可能会改变O2O,改变传统的餐饮娱乐行业,将来工业、农业、金融投资相关的行业都会被大数据改变。
“互联网同时会产生非常多的数据,人类社会的数据量是每12个月到18个月翻一番,你能够想象到未来的数据量有多大。谁能够解决这个巨大的挑战,谁就能从中创造出价值,这也是为什么互联网公司、技术类公司都这么关注大数据、积累大数据资产和大数据技术的原因。”董力明向《经济》记者表示。
大数据跟政治、经济、商业、文化、生活方方面面都有关系。每个人的行踪都是一种数据,呼吸是一种数据,就餐行为、交通习惯甚至刷一张信用卡都是数据。
随着数据样本越来越多,大数据会变成一个更加广泛的应用工具。“每一个事物、每一个人将来都可以用数据描述出来。”中金标准数据公司总经理郝文嘉向《经济》记者表示,整个社会依靠数据而连接,变成数据驱动型的国家,这是必然趋势。
在王叁寿看来,这种趋势为数据企业创造了巨大的生存空间。“大数据这个行业是唯一一个能弯道超车的行业,因为目前没有哪家公司能垄断数据行业,唯独大数据这个行业可以绕过行业巨头。”
数据的价值需要通过应用才能体现出来。“我最看好几个领域的数据,一是金融;二是医疗大数据;接下来是能源大数据、交通大数据和一些商品、物流大数据,这些领域的大数据是比较容易变现的,有很强的买单能力。”王叁寿说,整个大数据产业,可以做到一万亿、两万亿,甚至三万亿这样的产值。”
中国通讯协会常务副理事长张新生也向《经济》记者表示,未来在医疗、工业、企业营销、城市建设等方面,大数据都有着很大的应用空间。
郝文嘉透露称,目前把大数据应用最好的还是金融行业,“金融领域是对大数据领域接受度最高的,可能是因为银行、券商、基金公司对数据的渴求,他们对数据非常敏感,接受度也很高。”
而在董力明看来,大数据对于行业的作用往往取决于行业本身的价值和体量,“比如说电信行业、金融行业,本身体量就很大,大数据给它带来的价值也就很可观”。
数据采集的成本是递减的
经过了几年的蛰伏,数据公司开始集中浮出水面。记者了解到,目前国内大概有800多家大数据公司,形形色色大概分了接近30多个品种,涵盖了金融大数据、医疗大数据、能源大数据、交通大数据等多个领域。
“现在成立了很多交易的平台,中关村就有,它帮你抓取数据,自己建个平台做搜索。”张新生透露称,目前建立这种平台的技术已经成熟,就看谁的方法更具创新性。
除了这些平台公司抓取来的资源,大部分数据资源都掌握在政府部门、互联网企业、运营商、金融机构里,例如百度做的是社会数据,腾讯做的是社交数据,阿里巴巴做的是电子商务。每个公司掌握的数据类型都不太一样。
在张新生看来,数据走向商品要经历固化信息痕迹、提取数据价值、分析挖掘、可视化,最后到应用这些流程。
而在目前的大数据产业链条上,主要有四个梯队:第一梯队主要做IT基础建设,例如IBM、华为、中金;第二梯队是做数据存储、软硬件服务;第三梯队做大数据应用;第四梯队做大数据交易。
这些梯队中,有先来者,也有后来者。
“我们研究了那么多年,已经到了整合弥补数据缺陷阶段,其实从社会各方面来说,业内也有很多人在做这种数据,大家形成了共识,尽快把这条链建立起来。”郝文嘉说。
而在王叁寿看来,现在已经到了爬上山顶看太阳的阶段,“在大数据领域,创业就像爬泰山一样,前几年所有做大数据的公司都在爬山,这两年陆陆续续地开始有一些大数据公司爬到山顶上去了”。
“过去靠弄点儿数据就想去赚钱并不容易。但我们觉得这个趋势没问题就一直坚持,最开始在2011-2013年一分钱没赚,从2014年开始盈利,2015年开始有个爆发期,北京银行现在一个支行买我的大数据终端,一个终端30万一年。”据王叁寿透露,现在有一些数据公司已经开始赚钱了。
前几年就开始做数据的公司无疑选择了一个非常好的创业时间点,“现在再去重新汇集数据已经来不及了,再过三五年市场变天了”。在他看来,大数据这个行业想投机取巧是不行的,它需要很长时间的积累。
王叁寿认为,大数据公司能做得好要取决于三个方面:第一,要有很广泛的合法的数据采集渠道;第二,要有非常强的数据建模能力;第三,要有设计应用场景的能力,考虑如何让一些机构用了数据之后可以购买更廉价的机票。
那么数据采集的成本如何?“这个成本其实是一次性的成本,你只要把数据采集渠道打通了,以后就像水管一样,每天就往里面流水,流进来流出去,关键建水池和铺管道这个过程是需要时间的。”王叁寿说,数据采集的成本是递减的。
大数据收益由平台和卖方四六分成
在董力明看来,数据采集、数据存储最后还是要实现数据交易,否则就没有意义。而在我国,目前仅仅成立了贵阳大数据交易所一个平台,其有望成为数据领域的深交所、上交所。
“贵阳大数据交易所是大数据产业发展过程中的执牛耳者。”王叁寿说,没有大数据交易所谁都没有办法去整合中国的大数据产业,“政府数据公开总要有个渠道,这个口子在哪里呢,不是说几个公司就把它公开了,这是不行的,政府自己直接公开也不行,因为需要做清洗、脱敏、建模、分析,所以交易所也是政府部门日后公开数据的一个出口。”
由此,大数据交易链条的三个方面都已具备:数据卖方、平台和数据买方。据王叁寿介绍,交易所分得数据收益的40%,60%将返给数据卖方。
那么当大数据脱下技术外衣,它的交易流程是什么样的,谁愿意买,买的又是什么?为此,贵阳大数据交易所相关负责人也向记者举了一个生动的例子进行说明。
“大家好,我是一串数据,出生时被命名‘李丽’,记录了贵阳市民李丽在医院就诊的历史信息。今年4月份,我和兄弟姐妹被卫生部门送进一个大数据交易平台。进入平台之前,卫生部门给我们洗了一次澡。据说,这叫‘数据脱敏’。”在经过数据脱敏后,和李丽相关的私人信息都不见了,数据代号由“李丽”变成“X”,只记录了一位不知名的44岁的贵阳女性的病史。
脱敏成功,该数据正式进大数据交易所了。这个听起来“高大上”的交易所,和淘宝一样,是一个虚拟的交易平台。“刚进门,我听见卫生部门和平台的管理方在商量,谈了我到底值多少钱。等他们定完价,我就被标上价格,进入平台展示窗口,等待买家。最终,贵阳市一家制药公司看中我,价格也合适,老板把我和数以百万计的兄弟姐妹一起打包买走了。具体交易额是多少?保密!收益由平台和卫生部门四六分成。”
到达制药公司后,通过深度挖掘系统,制药公司有针对性地推出新药,最后卖给“李丽”这样的市民。
数据交易流程都与以上例子类似,但是在数据来源、种类、重要程度都不同的情况下,大数据如何定价就成了一个问题。
王叁寿表示,数据将进行自动计价连续交易,交易所将针对每一个数据品种设计自动的计价公式,数据买方可以通过交易系统查询每一类数据的实时价格。“当数据买方应约价等于或高于卖方挂牌价时,按照交易所自动撮合成交,成交价为买方应约价格;对于不能自动成交的应约,卖方可选择能接受的应约与其成交,成交价为买方应约价;因为数据买方不一定需要全部的数据样本,这个时候,我们系统将对数据设定拆分原则,系统自动报价,而后自动撮合成功成交。”
并不是所有人都可以在平台上购买这些大数据。记者了解到,交易所对数据买方也进行了一些限制,暂时不允许任何个人购买交易所的数据。同时在监管不健全的情况下,外资数据买方购买数据之前需要进行资格审查。从这个角度来说,也在一定程度上保证了数据的流向。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在Python开发中,HTTP请求是与外部服务交互的核心场景——调用第三方API、对接微服务、爬取数据等都离不开它。虽然requests库已 ...
2025-12-12在数据驱动决策中,“数据波动大不大”是高频问题——零售店长关心日销售额是否稳定,工厂管理者关注产品尺寸偏差是否可控,基金 ...
2025-12-12在CDA(Certified Data Analyst)数据分析师的能力矩阵中,数据查询语言(SQL)是贯穿工作全流程的“核心工具”。无论是从数据库 ...
2025-12-12很多小伙伴都在问CDA考试的问题,以下是结合 2025 年最新政策与行业动态更新的 CDA 数据分析师认证考试 Q&A,覆盖考试内容、报考 ...
2025-12-11在Excel数据可视化中,柱形图因直观展示数据差异的优势被广泛使用,而背景色设置绝非简单的“换颜色”——合理的背景色能突出核 ...
2025-12-11在科研实验、商业分析或医学研究中,我们常需要判断“两组数据的差异是真实存在,还是偶然波动”——比如“新降压药的效果是否优 ...
2025-12-11在CDA(Certified Data Analyst)数据分析师的工作体系中,数据库就像“数据仓库的核心骨架”——所有业务数据的存储、组织与提 ...
2025-12-11在神经网络模型搭建中,“最后一层是否添加激活函数”是新手常困惑的关键问题——有人照搬中间层的ReLU激活,导致回归任务输出异 ...
2025-12-05在机器学习落地过程中,“模型准确率高但不可解释”“面对数据噪声就失效”是两大核心痛点——金融风控模型若无法解释决策依据, ...
2025-12-05在CDA(Certified Data Analyst)数据分析师的能力模型中,“指标计算”是基础技能,而“指标体系搭建”则是区分新手与资深分析 ...
2025-12-05在回归分析的结果解读中,R方(决定系数)是衡量模型拟合效果的核心指标——它代表因变量的变异中能被自变量解释的比例,取值通 ...
2025-12-04在城市规划、物流配送、文旅分析等场景中,经纬度热力图是解读空间数据的核心工具——它能将零散的GPS坐标(如外卖订单地址、景 ...
2025-12-04在CDA(Certified Data Analyst)数据分析师的指标体系中,“通用指标”与“场景指标”并非相互割裂的两个部分,而是支撑业务分 ...
2025-12-04每到“双十一”,电商平台的销售额会迎来爆发式增长;每逢冬季,北方的天然气消耗量会显著上升;每月的10号左右,工资发放会带动 ...
2025-12-03随着数字化转型的深入,企业面临的数据量呈指数级增长——电商的用户行为日志、物联网的传感器数据、社交平台的图文视频等,这些 ...
2025-12-03在CDA(Certified Data Analyst)数据分析师的工作体系中,“指标”是贯穿始终的核心载体——从“销售额环比增长15%”的业务结论 ...
2025-12-03在神经网络训练中,损失函数的数值变化常被视为模型训练效果的“核心仪表盘”——初学者盯着屏幕上不断下降的损失值满心欢喜,却 ...
2025-12-02在CDA(Certified Data Analyst)数据分析师的日常工作中,“用部分数据推断整体情况”是高频需求——从10万条订单样本中判断全 ...
2025-12-02在数据预处理的纲量统一环节,标准化是消除量纲影响的核心手段——它将不同量级的特征(如“用户年龄”“消费金额”)转化为同一 ...
2025-12-02在数据驱动决策成为企业核心竞争力的今天,A/B测试已从“可选优化工具”升级为“必选验证体系”。它通过控制变量法构建“平行实 ...
2025-12-01