京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据全覆盖:十项标准将出台 这是创业者弯道超车BAT最大机遇?
从业务定位到市场开发,从产品生产到服务提供,大数据企业的发展还处于初始阶段。在大数据生态圈里,看上去很美的商业价值,已经吸引了一批创业者,将之视作弯道超车BAT的最大机遇;也有传统企业和行业巨头借势圈地扩张,寄望完成转型和整合。
国家标准委正在着手制定首批共十项大数据标准,分别是大数据术语、大数据技术参考模型、数据交易平台交易数据描述、数据交易服务平台通用功能要求、数据能力成熟度评价模型、多媒体数据语义描述要求、科学数据引用、数据溯源描述模型、数据质量评价指标和通用数据导入接口规范。
大数据企业如何发展,市场正在做出自己的选择。
8月末,北京某酒店的一场大数据企业展上,聚集了全国各地的企业。现场展示有随着《江南style》起舞的机器人,有早期科幻电影里走出来的“触摸式数据可视化屏幕”……
“你们的具体业务是做什么的”、“和大数据有什么关系”……和直观的服装展、美食展不同,大数据行业作为当下的风口新业态,其行业标准、商业模式正在探索中,参展的大数据企业们,以各种可视化的方式,把大数据产业的最新成果展示给观众。这场活动吸引了大批企业和研究人员,其中还包括自费从国外过来学习的教授。
中国的人口数量,让其成为大数据大国,但却不是生来的大数据强国。国内大数据市场正在经历炒作、探路和实践期。21世纪经济报道记者采访发现,今年的大数据行业聚会,探讨的内容已经从2014年的数据是什么,发展到大数据产业的商业模式怎么做。
从业务定位到市场开发,从产品生产到服务提供,大数据企业的发展还处于初始阶段。在大数据生态圈里,看上去很美的商业价值,已经吸引了一批创业者,将之视作弯道超车BAT的最大机遇;也有传统企业和行业巨头借势圈地扩张,寄望完成转型和整合。
有学界和业界人士预测,大数据已经从概念炒作走向了稳步发展时期。另外,8月份出台的促进大数据产业发展行动纲要,系列鼓励和规范政策正在密集出台中。在大数据这个具体政策和标准近乎空白,正在野蛮生长的大数据产业生态链中,21世纪经济报道记者通过采访大数据产业生态链上的各类企业,摸底大数据产业的商业化落地进程。
应用行业参差不齐
“扫码送牛奶”、“扫码送雨伞”……进入2015年,从中关村地铁站出来,簇拥围住你的人群,不再给你发传单,而是各类APP扫码推广。APP推广的大量聚集,让这里被戏称做“扫码一条街”。
在大数据被各方合力推上风口的当下,这些APP推广工作人员会介绍,这款应用是基于某领域海量数据库的处理和分析的产品。在很多新上线APP的宣传里,“数据为王”,“企业对大数据的态度决定未来的高度”,类似的说法越发常见。
事实上,这些企业是不是纯粹的大数据企业尚有争议。一部分人认为,严格意义上来说他们只是通过互联网+的方式应用大数据,是大数据生态链上最终的消费者,是大数据得以应用的主要场景,而不是纯粹的大数据从业企业。
抛开争论,这些大数据应用企业,对大数据产业发展的重要性毋庸置疑。“企业对数据的应用,是大数据行业发展的引擎”,有专家表示。
21世纪经济报道记者发现,在每一次关于大数据相关的活动中,大数据的商业应用,是最受关注的板块。在8月26日的中国国际大数据大会开幕论坛上,关于大数据的商业应用,学界和业界即产生了两种完全对立的观点。
北京大学鄂维南院士提到:“现在的数据分析公司是风起云涌,我把它说成是小锅炉战场,想当年大炼钢铁的时候,就是自己在家里就建了锅炉就炼。”鄂维南称,现在的确什么人都可以做,没有什么技术含量。
鄂维南还提到,数据交易存在经济学上的悖论,数据服务作为一个业务模式,它的商业模式现在没有真正被认可,数据通过什么方式赚钱,前景不是那么清楚。
晶赞科技董事长汤奇峰在中国国际大数据大会上发言称,大数据交易并不存在经济学上的悖论。我国企业对大数据应用的现状基本都是初期的状态。应用的主要形式还是,基于大数据得到的商业洞悉,业务推荐和智能获客等三个领域。其中的典型就是个性化推荐和智能广告。
汤其峰在接受21世纪经济报道记者采访时表示,大数据的商业模式体现在很多方面,大数据价值在交易和流通的过程中体现,并且会发生聚变效应,实现边际效应递增。
21世纪经济报道记者了解到,目前国内对于大数据应用,发展较好的还是以大企业为主,比如BAT、滴滴快的、Uber等互联网企业。不管是对外数据源采集,还是企业内部的数据资产管理,其互联网企业基因,以及自身的资本优势,使得他们在大数据的应用上同样处于领先的态势。
同时,由于这些拥有大量数据资源的企业,在分析挖掘数据形成应用的同时,放弃直接依靠出售数据获利,而选择对外提供数据服务和分析结果,为应用类企业的决策和东西提供了便利条件。这也是应用类的数据企业或产品数量较大,占到了行业总数的三分之一的重要原因。
而对于部分中小企业而言,资金缺乏和技术难题导致数据获取难,缺乏数据资产管理意识,其对大数据的使用,仍在探路中。
另外,我国的大数据应用领域分布仍然不够全面,相关企业主要集中在互联网、市场营销、电信、金融领域,而政府公共服务、农业类应用,发展还在原始阶段,近期个别企业还不时爆出数据造假的传闻。同时,数据应用的方式单一,思路狭窄,一些企业盲目学习国外的数据应用模式,也是大数据应用企业发展的一大短板。
抢占数据分析高地
如果说大数据的应用,是大数据产业的商业价值终端,那么大数据行业公认的大数据分析,将会是大数据产业的核心,是大数据能够点石成金的关键。
这样的判断是基于大数据的特性。数据本身不产生价值,当数据经过挖掘、归类和分析,能够给企业决策提供帮助之后,才具有价值。
数据堂公司今年发布了一份《大数据产业调研及分析报告》,其中将大数据分析工作归类为商业分析、语音识别、图像分析、实时处理、空间分析、基因分析、用户分析、日志分析,和数据可视化等九个种类。目前,国内在各个领域都已出现了一批相关大数据企业。
与上述横向划分不同,另一些看法则偏向将大数据分析按商业价值的高低进行区分。前LinkedIn商业分析部总监,GrowingIO的创始人张溪梦介绍说,在数据分析发展更早的美国,数据分析区块已经按商业价值从低到高地细分为数据采集、大数据架构、响应性分析,诊断性分析、战略性分析、预测性分析和全自动分析。而一旦做到数据分析全自动化,将会利用10%的时间,创造出这个行业90%的价值。
在美国数据分析领域工作十余年的张溪梦认为,“数据分析前端过程复杂,分析昂贵,导致在过去若干年里,数据科学家90%的时间和工作都是进行数据清洗、整理、传输和存储,但真正产生价值的是剩下的10%。我们必须要利用各种先进技术,把金字塔底部做得非常狭窄,把以往很缓慢的流程缩短甚至透明化。”
21世纪经济报道记者获悉,目前国内的数据分析产品,在与国外产品的竞争中仍处劣势。以日志搜索系统为例,虽然国内已有自主研发的日志实时搜索分析引擎面世,但市场使用的主流还是HADOOP、STORM和SPARK等国外开放计算框架下的产品,有部分互联网和金融企业则选择了SPLUNK等第三代日志搜索软件包,这同样也是美国开发的大数据工具。
然而国内企业并非毫无竞争力,日志搜索分析引擎“日志易”的创始人兼CEO陈军介绍,这些国外数据搜索处理系统价格非常昂贵,同时由于之前的“棱镜门”事件,国外系统的软件后门也令一些国内的企业尤其是金融企业担忧。
人才短缺是限制国内大数据分析企业发展的另一大主因。《哈佛商业评论》曾将数据分析师称为“21世纪最性感的职业”,当下也是稀缺和抢手的职业。鄂维南院士介绍,我国大数据发展最大的优势是庞大的市场,最大的劣势是缺乏人才,“我们国家目前没有建立起非常好的培养大数据人才的机制,在大数据涉及的统计、机械学习等这些领域相比而言更加弱势。”
滴滴快的CEO程维在讲述如何到硅谷挖人时提到,人才是最大的瓶颈,中国没有那么多的大数据和机器算法的科学家,后来发现硅谷一线的互联网企业,像Uber、Facebook里面20%的工程师是华人。“我们派了CTO和一个代表团在硅谷把他们请到一起交流。”程维说。
鄂维南认为,大数据分析人才的缺乏,当下数据人才市场,不仅有国内和国外的竞争,学术界与企业界也在竞争。要想弥补人才短缺,在大数据领域取得领先地位,需要建立一个开放的,既可以做科研也可以产业化做市场的国际标准的研究平台,或是解决之道。
数据平台期待全覆盖
相对大数据分析企业的专业和专一定位,产业覆盖面广的大数据平台类企业,则是在国际大数据大会的企业展厅中,占比最高的行业类型。
一位参展的大数据平台商人告诉记者,“大数据平台会是大数据行业的基石和中坚。”据了解,阿里,百度,华为等企业都早已布局大数据平台,阿里云更是从2010年就对外开放了其在云计算领域的技术服务。
然而,大数据平台的准确定义至今仍未有定论。广州工业大学大数据战略研究院副院长谢卫红告诉记者,与数据分析、数据应用不同,大数据平台是随着大数据产业兴起而诞生的新兴事物,目前还没有官方定义。大数据平台的数据规模和具体功用,都还有待界定。
21世纪经济报道记者采访发现,当下市面上所谓的平台主要有两类,一类是通过各种渠道搜集、整理数据,并为数据应用企业提供有偿数据的数据交易类平台;一类是为了处理企业内部生产运营中产生的海量数据,以存储、运算、展现这些数据为目的的数据处理类平台,其工作内容包括了数据的输入、导入、分析以及加工。
在整个大数据生态中,大数据平台处于行业中上游位置,是进行数据分析和应用的基础。其中,大数据交易平台由于数据权属和交易规则尚未制定的缘故,发展相对滞后,基本都是2014年后开始投入运营;大数据处理平台则开发较早,商业化程度相对较高。
目前,大数据处理平台的服务对象以企业为主。除了一些中小型的创业公司,一些大公司也相继推出自己的相关业务,如华为的FusionInsight,和海尔的SCRM(社交化客户关系管理)平台。
其中,大多数平台主要解决企业特别是大企业内部的数据孤岛问题,将CRM(客户关系管理)、ERP(企业资源计划)、OA(办公自动系统)等业务系统打通,实现跨行业、跨部门的数据分析与整合,以协助企业的运营、管理和决策。
在这部分数据处理平台中,包括依靠技术模块的变化,提供不同行业平台服务的平台,和针对专门行业的平台;后者数量较少,在交通、建筑和媒体行业都有较为典型的专业化平台出现。
此外,数据处理平台中还有一类针对特定业务系统的大数据平台,比如海尔的SCRM,就是专门的社交化客户关系管理的数据平台。
由于大数据平台在大数据产业中的基础性地位,国内的大数据处理平台企业数量相对较多。对其业务性能和服务的评价体系也相应较为完整。
大数据处理平台供应商,九章云极的CEO方磊称,数据集成能力、存储和计算能力、分析能力、部署能力、运维能力、开发定制能力,和管理协调能力等七大方面的能力,会是厂商在挑选平台服务时的主要尺度和标准。其中前六者形成数据资源挖掘和计算能力闭环,管理协调能力则影响着平台的工作效率。
然而需求方的要求似乎并没有得到满足。方磊向21世纪经济报道记者透露,在他们与平台需求企业的对接中,“端到端”、在数据处理平台上直接实现数据分析的要求,越来越多。需求方,往往也是数据应用企业,希望平台能够提供一体化、一键式的自动化数据服务。
在商业价值开放较好的大数据处理平台区块,需求正加速推动着产品的转型。“未来大数据平台和大数据分析的融合会是一种趋势,大数据分析企业会向下渗透到数据收集和整理,大数据平台企业会往数据分析上发展,这种扩张是必然的。”方磊说。
不过在当下的技术和人才条件下,大多数大数据处理平台,还只能实现基础性的数据分析,和简单的可视化呈现。清华大学数据科学研究院执行副院长韩亦舜,在接受21世纪经济报道记者采访时表示,目前一键式的自动化数据服务,只能在一些数据结构单一的特定领域实现。对于多源异构的数据,想要实现一键式自动化服务,还有很长的路要走。未来的数据平台,实现针对不同行业领域的垂直细分后,可能会在某些行业率先实现突破。
十项大数据标准制定中
在业界构想中的完整大数据生态链里,不同人的分类不同,大数据企业的类型也很多。其中必须要提的,就是大数据产业最基础的工作——数据源。一些数据源企业和数据存储系统企业,都已在市场上占据了一席之地。
目前,由于数据流通尚未形成规模,国内数据源区块中的平台比例较为明显。作为当下仅有的几家号称专门从事数据源业务的公司之一,数据堂搜集线下数据,开展线上业务的市场定位和数据众包、采集加工流通三位一体的“数据银行”的业务模式较有代表性。
然而,由于行业规则和行业标准缺失、数据的权属不明,当下大量的数据交易是不规范且有争议的。国务院发展研究中心技术经济部副部长田杰棠称,数据交易的前提是产权要清晰,尤其是个人在线活动产生的数据,其产权到底属于个人还是企业,对于整个产业的发展和数据资源的配置都有很大影响。
数据源企业的发展必然伴随着数据交易,不规范交易、个人隐私界定模糊和数据产权划分不清晰带来的安全担忧,是造成国内专门从事数据源工作的企业数量稀缺的重要原因。
与数据源区块不同,在大数据存储区块,核心技术的缺失成为了最大的问题。一家参展的厦门数据存储系统开发商负责人告诉记者,国内的数据储存企业拥有自主知识产权的很少,特别在硬件上的技术落后国外更多。
不过这样的情况正在好转,韩亦舜告诉21世纪经济报道记者,随着近年来硬件开源的兴起,国内在数据存储领域实现自主可控的速度有望加快。
另外,国内大数据标准化进程也在逐步推进中,困扰大数据行业的瓶颈或将迎来部分解决。
据中国电子信息标准化研究院技术总监王立建介绍,国家标准委正在着手制定首批共十项大数据标准,分别是大数据术语、大数据技术参考模型、数据交易平台交易数据描述、数据交易服务平台通用功能要求、数据能力成熟度评价模型、多媒体数据语义描述要求、科学数据引用、数据溯源描述模型、数据质量评价指标和通用数据导入接口规范。
其中前四项处在征求意见稿状态,中间四项已完成草案,最后两项还在草案大纲阶段。另外,大数据标准体系框架也已在征求意见稿阶段。
随着政策顶层设计的越发清晰和行业标准的逐渐形成,对于大数据企业的未来发展方向,各方也有了不同的判断。
一些大数据商人认为,长远看单纯从事数据生态某一环节的企业,都存在重大转型压力,特别是底层的数据搜集和挖掘企业,针对不同行业领域的大数据企业将会整合该领域的数据收集、储存和分析业务。
而另一些大数据交易平台的支持者则认为,大数据行业未来会围绕大数据交易平台,形成纵向细分的垂直行业生态,以及横向产业链精细化分工的网格状发展态势与布局。
来自业内的预测更为乐观。阿里研究院数据经济研究中心秘书长潘永花表示,根据2014年的Gartner新兴技术曲线显示,大数据已经从炒作高峰,进入5到10年的稳步发展期,2015年大数据已经成为主流技术。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在机器学习实践中,“超小数据集”(通常指样本量从几十到几百,远小于模型参数规模)是绕不开的场景——医疗领域的罕见病数据、 ...
2025-12-17数据仓库作为企业决策分析的“数据中枢”,其价值完全依赖于数据质量——若输入的是缺失、重复、不一致的“脏数据”,后续的建模 ...
2025-12-17在CDA(Certified Data Analyst)数据分析师的日常工作中,“随时间变化的数据”无处不在——零售企业的每日销售额、互联网平台 ...
2025-12-17在休闲游戏的运营体系中,次日留存率是当之无愧的“生死线”——它不仅是衡量产品核心吸引力的首个关键指标,更直接决定了后续LT ...
2025-12-16在数字化转型浪潮中,“以用户为中心”已成为企业的核心经营理念,而用户画像则是企业洞察用户、精准决策的“核心工具”。然而, ...
2025-12-16在零售行业从“流量争夺”转向“价值深耕”的演进中,塔吉特百货(Target)以两场标志性实践树立了行业标杆——2000年后的孕妇精 ...
2025-12-15在统计学领域,二项分布与卡方检验是两个高频出现的概念,二者都常用于处理离散数据,因此常被初学者混淆。但本质上,二项分布是 ...
2025-12-15在CDA(Certified Data Analyst)数据分析师的工作链路中,“标签加工”是连接原始数据与业务应用的关键环节。企业积累的用户行 ...
2025-12-15在Python开发中,HTTP请求是与外部服务交互的核心场景——调用第三方API、对接微服务、爬取数据等都离不开它。虽然requests库已 ...
2025-12-12在数据驱动决策中,“数据波动大不大”是高频问题——零售店长关心日销售额是否稳定,工厂管理者关注产品尺寸偏差是否可控,基金 ...
2025-12-12在CDA(Certified Data Analyst)数据分析师的能力矩阵中,数据查询语言(SQL)是贯穿工作全流程的“核心工具”。无论是从数据库 ...
2025-12-12很多小伙伴都在问CDA考试的问题,以下是结合 2025 年最新政策与行业动态更新的 CDA 数据分析师认证考试 Q&A,覆盖考试内容、报考 ...
2025-12-11在Excel数据可视化中,柱形图因直观展示数据差异的优势被广泛使用,而背景色设置绝非简单的“换颜色”——合理的背景色能突出核 ...
2025-12-11在科研实验、商业分析或医学研究中,我们常需要判断“两组数据的差异是真实存在,还是偶然波动”——比如“新降压药的效果是否优 ...
2025-12-11在CDA(Certified Data Analyst)数据分析师的工作体系中,数据库就像“数据仓库的核心骨架”——所有业务数据的存储、组织与提 ...
2025-12-11在神经网络模型搭建中,“最后一层是否添加激活函数”是新手常困惑的关键问题——有人照搬中间层的ReLU激活,导致回归任务输出异 ...
2025-12-05在机器学习落地过程中,“模型准确率高但不可解释”“面对数据噪声就失效”是两大核心痛点——金融风控模型若无法解释决策依据, ...
2025-12-05在CDA(Certified Data Analyst)数据分析师的能力模型中,“指标计算”是基础技能,而“指标体系搭建”则是区分新手与资深分析 ...
2025-12-05在回归分析的结果解读中,R方(决定系数)是衡量模型拟合效果的核心指标——它代表因变量的变异中能被自变量解释的比例,取值通 ...
2025-12-04在城市规划、物流配送、文旅分析等场景中,经纬度热力图是解读空间数据的核心工具——它能将零散的GPS坐标(如外卖订单地址、景 ...
2025-12-04