京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据进入挖掘为王时代“新矿工”挖掘新未来
一堆毫无交集的数据,经过一番交融荟萃,催生出全新的应用,激发出全新的商业模式,孕育出新的产业,培育出新的经济增长点,颠覆着传统的经济活动…… 数据挖掘显现的这一系列价值,正在推出一个以数据挖掘为核心的大数据价值输出新时代。
影响所及,无所不达。3月1日,一场围绕数据挖掘的全球赛事——2017中国国际大数据挖掘大赛在我国首个大数据试验区贵州宣布启动。
“相对于采集、储存,数据挖掘是大数据走向应用创造价值的关键。”大赛组委会一位负责人表示,“贵州在拼命开放数据的同时,也在全力进行数据挖掘,就是要尽快‘逼出’大数据的价值,让大数据战略释放出大红利。”
贵州只是全球大数据浪潮的缩影。无论中国的西部,还是美国的硅谷,“挖掘”的声音在全球同步响起,汹涌澎湃。数据资源的开放,挖掘工具的进步,商业前景的清晰,数据挖掘成为新一轮市场热点,愈发受到资本的追捧。
数据价值输出新时代
“如果把大数据比作石油,那么挖掘就是勘探、钻井、提炼、加工。核心是把数据资源变现成商用价值。”一位曾参与国家大数据行动计划纲要起草的专家表示,数据资源已经成为国家战略性资源,我国必须尽快在大数据挖掘这个关键点有所突破。
目前国际主流的做法是把大数据链条分为数据获取、预处理、存储、挖掘或分析、可视化五个关键环节,挖掘被认为是核心。
“真正的大数据就体现在大数据的深度挖掘应用。”中科院院士、北京理工大学副校长梅宏在一次大数据论坛上表示。
“这实际上是数据价值在不断提升的体现。”上述国家大数据行动计划纲要起草专家分析说,以前是对于数据资源的利用,更多是信息的获取,例如企业通过经营数据的分析统计,总结过去的经营活动。而现在不再局限于信息获取,同时实时数据资源的挖掘,可以优化业务模块,可以催生新的业务模块,这是颠覆性的。
全球知名咨询公司德勤发布的《2016分析趋势报告》认为,数据挖掘的威力和价值正在凸显出,它帮助人们作出更明智的决策,优化企业和社会运转。“商界正在积极寻找可以让他们赢得优势的科学方法。”
“我们已经走进数据价值输出的时代。”该专家表示,“大数据依靠挖掘而呈现的巨大商业价值,正在成为推动经济变革的新引擎。”
挖掘需要更多的数据
丰富的数据源是进行大数据挖掘的前提。德勤最新发布报告《2017德勤技术趋势》指出,数据资源正在指数级的增长,到2020年,全球的数字预计将达到44泽字节(zetta bytes)。”
尽管数据资源在全球呈指数级增长,但是数据资源的开放和共享程度却亟待提升。“从国际上看,政府数据开放还处于初期阶段,主要通过制定战略或政策文件形式指导开放。”中国信息通信研究院互联网法律研究中心主任工程师杨筱敏说。
杨筱敏说,2015年我国密集发布了多个相关文件,其中最主要的是国务院《促进大数据发展行动纲要》。纲要对相关政策进行了梳理,提出在开放前提下加强安全和隐私保护,在数据开放的思路上增量先行,提出在2018年底前建成国家统一的数据开放平台。
“目前我国信息数据资源80%以上掌握在各级政府部门手里,‘深藏闺中’是极大浪费。”2016年5月9日的全国推进简政放权放管结合优化服务改革电视电话会议上,国务院总理李克强要求尽快实现政府数据开放。
实际上,嗅觉灵敏的贵州、宁夏等省份,早在几年前就开始布局大数据。贵州甚至是全国第一个大数据综合试验区,政府数据开放是其重要的试验内容。
贵州在2014年开始大数据行动,第一步就是打造一个数据开放共享的“聚通用”云上贵州平台。到了2016年下半年时候,贵州突然加大了推进力度,启动“数据‘聚通用’攻坚会战”。
贵州省大数据发展管理局副局长康克岩介绍,2017年元旦前夕,贵州省法人单位、人口、空间地理、宏观经济四大基础数据库数据汇入共享平台,贵州率先实现50%以上政府数据“云上”开放共享。
记者梳理发现,北京、上海、浙江、青岛、武汉地已建立了专门的政府数据开放平台。最近,河北省和安徽省均表示要在2018年底前初步建成政府数据开放平台。
在此次大赛启动会上,来自贵阳、北京、上海、深圳、广州、杭州等17个国内政府数据开放先行城市的代表,共同发布了《共同促进数据开放及应用行动宣言》,呼吁共同努力促进政府数据开放。
“新矿工”挖掘新未来
随着数据资源越来越多,数据形态越来越丰富。康克岩在分享贵州数据开放经验时表示,在进行海量数据汇集过程中,有一个难题就是数据格式不统一、标准不统一。
形态各异的数据正是大数据的显著特征。海量的图片、声音和视频甚至互联网上的闲言碎语——《2017德勤技术趋势》将这种非结构化的数据称之为暗数据。
德勤在报告里宣称,这些暗数据是比以往任何时候都更有价值的数据源,当然,对挖掘技术的要求也越来越高。
不过这并没有阻挡市场的热情,越来越多大数据企业和数据科学家加入到“暗数据挖掘”战。
移动信息化研究中心2月10日发布的《2016中国大数据市场研究报告》显示,国内大数据企业此前主要聚焦在技术壁垒较低的应用、可视化等环节,而在存储和挖掘等环节,极少有企业切入。但是到了2016年,看到了利好消息。该报告显示,从2013年到2016年,数据挖掘在大数据产业链中的分布情况从4.1%上升到9.2%。
该报告也显示,从大数据主要产业链市场份额占上看,数据存储约占12.5%,存储14.7%,应用7.9%,挖掘占比最高,为17.3%。报告认为产业链纵向各环节均属蓝海市场,而挖掘高风险与高收益并存。
麦肯锡更是对数据挖掘大唱赞歌。麦肯锡全球研究所一份报告指出,到2025年,物联网11.1万亿美元的年产值中60%将来自于对数据的整合和挖掘。
事实上,国内资本看好大数据挖掘这片市场,多数大数据创新企业在A轮或A轮以前可以融到数千万的启动资金,极大程度的催熟创新企业的成长。
知名风投看好,作价千万提前布局,这其中不乏有IDG资本、经纬中国、达晨创投的身影。聚焦于数据挖掘的昆仑数据曾获得达晨创投数千万元的A轮融资。
资本的热捧下,人工智能(AI)、深度学习等大数据挖掘技术和工具的概念也烈焰高涨。时代呼唤新的“矿工”,寻找新的挖掘技术和工具,成为抢占大数据风口的制高点,关于数据挖掘的赛事也成为外界观察大数据脉动的风向标。
“2017年大赛将聚焦数据挖掘及应用,清晰展现大数据价值路径。”上述大赛组委会负责人士表示,“以贵阳为代表的贵州,在政府数据开放领域形成领先全国的态势,为大数据挖掘大赛提供了很好的基础和支撑。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
机器学习算法工程的核心价值,在于将理论算法转化为可落地、可复用、高可靠的工程化解决方案,解决实际业务中的痛点问题。不同于 ...
2026-03-18在动态系统状态估计与目标跟踪领域,高精度、高鲁棒性的状态感知是机器人导航、自动驾驶、工业控制、目标检测等场景的核心需求。 ...
2026-03-18“垃圾数据进,垃圾结果出”,这是数据分析领域的黄金法则,更是CDA(Certified Data Analyst)数据分析师日常工作中时刻恪守的 ...
2026-03-18在机器学习建模中,决策树模型因其结构直观、易于理解、无需复杂数据预处理等优势,成为分类与回归任务的首选工具之一。而变量重 ...
2026-03-17在数据分析中,卡方检验是一类基于卡方分布的假设检验方法,核心用于分析分类变量之间的关联关系或实际观测分布与理论期望分布的 ...
2026-03-17在数字化转型的浪潮中,企业积累的数据日益庞大且分散——用户数据散落在注册系统、APP日志、客服记录中,订单数据分散在交易平 ...
2026-03-17在数字化时代,数据分析已成为企业决策、业务优化、增长突破的核心支撑,从数据仓库搭建(如维度表与事实表的设计)、数据采集清 ...
2026-03-16在数据仓库建设、数据分析(尤其是用户行为分析、业务指标分析)的实践中,维度表与事实表是两大核心组件,二者相互依存、缺一不 ...
2026-03-16数据是CDA(Certified Data Analyst)数据分析师开展一切工作的核心载体,而数据读取作为数据生命周期的关键环节,是连接原始数 ...
2026-03-16在用户行为分析实践中,很多从业者会陷入一个核心误区:过度关注“当前数据的分析结果”,却忽视了结果的“泛化能力”——即分析 ...
2026-03-13在数字经济时代,用户的每一次点击、浏览、停留、转化,都在传递着真实的需求信号。用户行为分析,本质上是通过收集、整理、挖掘 ...
2026-03-13在金融、零售、互联网等数据密集型行业,量化策略已成为企业挖掘商业价值、提升决策效率、控制经营风险的核心工具。而CDA(Certi ...
2026-03-13在机器学习建模体系中,随机森林作为集成学习的经典算法,凭借高精度、抗过拟合、适配多场景、可解释性强的核心优势,成为分类、 ...
2026-03-12在机器学习建模过程中,“哪些特征对预测结果影响最大?”“如何筛选核心特征、剔除冗余信息?”是从业者最常面临的核心问题。随 ...
2026-03-12在数字化转型深度渗透的今天,企业管理已从“经验驱动”全面转向“数据驱动”,数据思维成为企业高质量发展的核心竞争力,而CDA ...
2026-03-12在数字经济飞速发展的今天,数据分析已从“辅助工具”升级为“核心竞争力”,渗透到商业、科技、民生、金融等各个领域。无论是全 ...
2026-03-11上市公司财务报表是反映企业经营状况、盈利能力、偿债能力的核心数据载体,是投资者决策、研究者分析、从业者复盘的重要依据。16 ...
2026-03-11数字化浪潮下,数据已成为企业生存发展的核心资产,而数据思维,正是CDA(Certified Data Analyst)数据分析师解锁数据价值、赋 ...
2026-03-11线性回归是数据分析中最常用的预测与关联分析方法,广泛应用于销售额预测、风险评估、趋势分析等场景(如前文销售额预测中的多元 ...
2026-03-10在SQL Server安装与配置的实操中,“服务名无效”是最令初学者头疼的高频问题之一。无论是在命令行执行net start启动服务、通过S ...
2026-03-10