京公网安备 11010802034615号
经营许可证编号:京B2-20210330
你不知道的大数据利益链背后的秘_数据分析师
“数据就像是一个神奇的钻石矿,在其首要价值被发掘之后仍能不断产生价值。”在维克托看来,数据的真实价值就像漂浮在海洋中的冰山,第一眼只能看到冰山一角,而绝大部分则隐藏在表面之下。
大数据能创造切实的真金白银
国内外很多科技公司都试图潜入冰山底部,将技术党手里的数据变成切实的真金白银。
“银行最值钱的是什么?数据!阿里巴巴最值钱的是什么?数据!腾讯最值钱的是什么?用户数据!都是数据。”在贵阳大数据交易所总裁王叁寿看来,如果未来一边是“互联网+”,另一边就是“大数据+”。
大数据产业联盟会长董力明对此也表示认同,互联网和大数据将是未来社会变革的两个非常重要的引擎,几乎会变革所有的行业。大数据目前可能只是改变了部分行业,比如电商、通讯业,下一步可能会改变O2O,改变传统的餐饮娱乐行业,将来工业、农业、金融投资相关的行业都会被大数据改变。
“互联网同时会产生非常多的数据,人类社会的数据量是每12个月到18个月翻一番,你能够想象到未来的数据量有多大。谁能够解决这个巨大的挑战,谁就能从中创造出价值,这也是为什么互联网公司、技术类公司都这么关注大数据、积累大数据资产和大数据技术的原因。”董力明向《经济》记者表示。
大数据跟政治、经济、商业、文化、生活方方面面都有关系。每个人的行踪都是一种数据,呼吸是一种数据,就餐行为、交通习惯甚至刷一张信用卡都是数据。
随着数据样本越来越多,大数据会变成一个更加广泛的应用工具。“每一个事物、每一个人将来都可以用数据描述出来。”中金标准数据公司总经理郝文嘉向《经济》记者表示,整个社会依靠数据而连接,变成数据驱动型的国家,这是必然趋势。
在王叁寿看来,这种趋势为数据企业创造了巨大的生存空间。“大数据这个行业是唯一一个能弯道超车的行业,因为目前没有哪家公司能垄断数据行业,唯独大数据这个行业可以绕过行业巨头。”
数据的价值需要通过应用才能体现出来。“我最看好几个领域的数据,一是金融;二是医疗大数据;接下来是能源大数据、交通大数据和一些商品、物流大数据,这些领域的大数据是比较容易变现的,有很强的买单能力。”王叁寿说,整个大数据产业,可以做到一万亿、两万亿,甚至三万亿这样的产值。”
中国通讯协会常务副理事长张新生也向《经济》记者表示,未来在医疗、工业、企业营销、城市建设等方面,大数据都有着很大的应用空间。
郝文嘉透露称,目前把大数据应用最好的还是金融行业,“金融领域是对大数据领域接受度最高的,可能是因为银行、券商、基金公司对数据的渴求,他们对数据非常敏感,接受度也很高。”
而在董力明看来,大数据对于行业的作用往往取决于行业本身的价值和体量,“比如说电信行业、金融行业,本身体量就很大,大数据给它带来的价值也就很可观”。
数据采集的成本是递减的
经过了几年的蛰伏,数据公司开始集中浮出水面。记者了解到,目前国内大概有800多家大数据公司,形形色色大概分了接近30多个品种,涵盖了金融大数据、医疗大数据、能源大数据、交通大数据等多个领域。
“现在成立了很多交易的平台,中关村就有,它帮你抓取数据,自己建个平台做搜索。”张新生透露称,目前建立这种平台的技术已经成熟,就看谁的方法更具创新性。
除了这些平台公司抓取来的资源,大部分数据资源都掌握在政府部门、互联网企业、运营商、金融机构里,例如百度做的是社会数据,腾讯做的是社交数据,阿里巴巴做的是电子商务。每个公司掌握的数据类型都不太一样。
在张新生看来,数据走向商品要经历固化信息痕迹、提取数据价值、分析挖掘、可视化,最后到应用这些流程。
而在目前的大数据产业链条上,主要有四个梯队:第一梯队主要做IT基础建设,例如IBM、华为、中金;第二梯队是做数据存储、软硬件服务;第三梯队做大数据应用;第四梯队做大数据交易。
这些梯队中,有先来者,也有后来者。
“我们研究了那么多年,已经到了整合弥补数据缺陷阶段,其实从社会各方面来说,业内也有很多人在做这种数据,大家形成了共识,尽快把这条链建立起来。”郝文嘉说。
而在王叁寿看来,现在已经到了爬上山顶看太阳的阶段,“在大数据领域,创业就像爬泰山一样,前几年所有做大数据的公司都在爬山,这两年陆陆续续地开始有一些大数据公司爬到山顶上去了”。
“过去靠弄点儿数据就想去赚钱并不容易。但我们觉得这个趋势没问题就一直坚持,最开始在2011-2013年一分钱没赚,从2014年开始盈利,2015年开始有个爆发期,北京银行现在一个支行买我的大数据终端,一个终端30万一年。”据王叁寿透露,现在有一些数据公司已经开始赚钱了。
前几年就开始做数据的公司无疑选择了一个非常好的创业时间点,“现在再去重新汇集数据已经来不及了,再过三五年市场变天了”。在他看来,大数据这个行业想投机取巧是不行的,它需要很长时间的积累。
王叁寿认为,大数据公司能做得好要取决于三个方面:第一,要有很广泛的合法的数据采集渠道;第二,要有非常强的数据建模能力;第三,要有设计应用场景的能力,考虑如何让一些机构用了数据之后可以购买更廉价的机票。
那么数据采集的成本如何?“这个成本其实是一次性的成本,你只要把数据采集渠道打通了,以后就像水管一样,每天就往里面流水,流进来流出去,关键建水池和铺管道这个过程是需要时间的。”王叁寿说,数据采集的成本是递减的。
大数据收益由平台和卖方四六分成
在董力明看来,数据采集、数据存储最后还是要实现数据交易,否则就没有意义。而在我国,目前仅仅成立了贵阳大数据交易所一个平台,其有望成为数据领域的深交所、上交所。
“贵阳大数据交易所是大数据产业发展过程中的执牛耳者。”王叁寿说,没有大数据交易所谁都没有办法去整合中国的大数据产业,“政府数据公开总要有个渠道,这个口子在哪里呢,不是说几个公司就把它公开了,这是不行的,政府自己直接公开也不行,因为需要做清洗、脱敏、建模、分析,所以交易所也是政府部门日后公开数据的一个出口。”
由此,大数据交易链条的三个方面都已具备:数据卖方、平台和数据买方。据王叁寿介绍,交易所分得数据收益的40%,60%将返给数据卖方。
那么当大数据脱下技术外衣,它的交易流程是什么样的,谁愿意买,买的又是什么?为此,贵阳大数据交易所相关负责人也向记者举了一个生动的例子进行说明。
“大家好,我是一串数据,出生时被命名‘李丽’,记录了贵阳市民李丽在医院就诊的历史信息。今年4月份,我和兄弟姐妹被卫生部门送进一个大数据交易平台。进入平台之前,卫生部门给我们洗了一次澡。据说,这叫‘数据脱敏’。”在经过数据脱敏后,和李丽相关的私人信息都不见了,数据代号由“李丽”变成“X”,只记录了一位不知名的44岁的贵阳女性的病史。
脱敏成功,该数据正式进大数据交易所了。这个听起来“高大上”的交易所,和淘宝一样,是一个虚拟的交易平台。“刚进门,我听见卫生部门和平台的管理方在商量,谈了我到底值多少钱。等他们定完价,我就被标上价格,进入平台展示窗口,等待买家。最终,贵阳市一家制药公司看中我,价格也合适,老板把我和数以百万计的兄弟姐妹一起打包买走了。具体交易额是多少?保密!收益由平台和卫生部门四六分成。”
到达制药公司后,通过深度挖掘系统,制药公司有针对性地推出新药,最后卖给“李丽”这样的市民。
数据交易流程都与以上例子类似,但是在数据来源、种类、重要程度都不同的情况下,大数据如何定价就成了一个问题。
王叁寿表示,数据将进行自动计价连续交易,交易所将针对每一个数据品种设计自动的计价公式,数据买方可以通过交易系统查询每一类数据的实时价格。“当数据买方应约价等于或高于卖方挂牌价时,按照交易所自动撮合成交,成交价为买方应约价格;对于不能自动成交的应约,卖方可选择能接受的应约与其成交,成交价为买方应约价;因为数据买方不一定需要全部的数据样本,这个时候,我们系统将对数据设定拆分原则,系统自动报价,而后自动撮合成功成交。”
并不是所有人都可以在平台上购买这些大数据。记者了解到,交易所对数据买方也进行了一些限制,暂时不允许任何个人购买交易所的数据。同时在监管不健全的情况下,外资数据买方购买数据之前需要进行资格审查。从这个角度来说,也在一定程度上保证了数据的流向。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在 MySQL 实际应用中,“频繁写入同一表” 是常见场景 —— 如实时日志存储(用户操作日志、系统运行日志)、高频交易记录(支付 ...
2025-10-30为帮助教育工作者、研究者科学分析 “班级规模” 与 “平均成绩” 的关联关系,我将从相关系数的核心定义与类型切入,详解 “数 ...
2025-10-30对 CDA(Certified Data Analyst)数据分析师而言,“相关系数” 不是简单的数字计算,而是 “从业务问题出发,量化变量间关联强 ...
2025-10-30在构建前向神经网络(Feedforward Neural Network,简称 FNN)时,“隐藏层数目设多少?每个隐藏层该放多少个神经元?” 是每个 ...
2025-10-29这个问题切中了 Excel 用户的常见困惑 —— 将 “数据可视化工具” 与 “数据挖掘算法” 的功能边界混淆。核心结论是:Excel 透 ...
2025-10-29在 CDA(Certified Data Analyst)数据分析师的工作中,“多组数据差异验证” 是高频需求 —— 例如 “3 家门店的销售额是否有显 ...
2025-10-29在数据分析中,“正态分布” 是许多统计方法(如 t 检验、方差分析、线性回归)的核心假设 —— 数据符合正态分布时,统计检验的 ...
2025-10-28箱线图(Box Plot)作为展示数据分布的核心统计图表,能直观呈现数据的中位数、四分位数、离散程度与异常值,是质量控制、实验分 ...
2025-10-28在 CDA(Certified Data Analyst)数据分析师的工作中,“分类变量关联分析” 是高频需求 —— 例如 “用户性别是否影响支付方式 ...
2025-10-28在数据可视化领域,单一图表往往难以承载多维度信息 —— 力导向图擅长展现节点间的关联结构与空间分布,却无法直观呈现 “流量 ...
2025-10-27这个问题问到了 Tableau 中两个核心行级函数的经典组合,理解它能帮你快速实现 “相对位置占比” 的分析需求。“index ()/size ( ...
2025-10-27对 CDA(Certified Data Analyst)数据分析师而言,“假设检验” 绝非 “套用统计公式的机械操作”,而是 “将模糊的业务猜想转 ...
2025-10-27在数字化运营中,“凭感觉做决策” 早已成为过去式 —— 运营指标作为业务增长的 “晴雨表” 与 “导航仪”,直接决定了运营动作 ...
2025-10-24在卷积神经网络(CNN)的训练中,“卷积层(Conv)后是否添加归一化(如 BN、LN)和激活函数(如 ReLU、GELU)” 是每个开发者都 ...
2025-10-24在数据决策链条中,“统计分析” 是挖掘数据规律的核心,“可视化” 是呈现规律的桥梁 ——CDA(Certified Data Analyst)数据分 ...
2025-10-24在 “神经网络与卡尔曼滤波融合” 的理论基础上,Python 凭借其丰富的科学计算库(NumPy、FilterPy)、深度学习框架(PyTorch、T ...
2025-10-23在工业控制、自动驾驶、机器人导航、气象预测等领域,“状态估计” 是核心任务 —— 即从含噪声的观测数据中,精准推断系统的真 ...
2025-10-23在数据分析全流程中,“数据清洗” 恰似烹饪前的食材处理:若食材(数据)腐烂变质、混杂异物(脏数据),即便拥有精湛的烹饪技 ...
2025-10-23在人工智能领域,“大模型” 已成为近年来的热点标签:从参数超 1750 亿的 GPT-3,到万亿级参数的 PaLM,再到多模态大模型 GPT-4 ...
2025-10-22在 MySQL 数据库的日常运维与开发中,“更新数据是否会影响读数据” 是一个高频疑问。这个问题的答案并非简单的 “是” 或 “否 ...
2025-10-22