京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据时代下的数据挖掘简析
随着大数据的兴起,隐藏在大数据背后的相关技术也逐渐被揭开神秘的面纱,其中,数据挖掘即是大数据应用过程中非常重要的环节。以下是国内领先的移动大数据服务商极光大数据的副总裁陈宇针对数据挖掘技术的简析,并对比总结了大数据时代下的数据挖掘技术相较于传统数据挖掘的突出优势。
数据挖掘技术概要
从海量的数据库中选择、探索、识别出有效的、新颖的、具有潜在效用的乃至最终可理解的模式以获取商业利益的非平凡的过程就是Fayyad和Piatetsky-Shapiror在1996年提出的数据挖掘的定义。这个定义有三个要点:处理海量的数据;揭示企业运作中的内在规律;为企业运作提供直接决策分析,并带来巨大经济效益。
技术不断演进,社会不断发展,对于数据挖掘的定义也发生了一些变化。例如对于数据量级的变化,从海量已经到了巨量。在1996年的时候,人们是无法想象2017年我们将会处理如此巨大的数据。而数据处理的样本规模也在从采样发展到全量,例如极光大数据在处理关键人的同轨分析特征识别的时候,会处理几百亿的位置信息轨迹,从中提炼出具有相同轨迹的设备信息,从而通过设备信息关联出自然人的相互关系等等。
同时,相对于1996年,数据应用发掘企业的内在规律已经拓展到了社会运行特征、人群行为特征、经济发展特征等等各个方面。而数据挖掘的目的也不仅是为了经济效益,也对社会生产力提升和管理水平提升提供了相应支持。
数据挖掘过程的关键点
传统数据挖掘过程一般采用如下过程:
数据挖掘的过程
在大数据时代,数据挖掘的过程本质相同,但是有如下差异:
大数据时代数据挖掘的差异
1. 从结构化数据到非结构化数据。传统的数据挖掘都是依据数据库里面的数据进行分析,在大数据时代,数据来源多种多样,对于这些非结构化数据的加工是大数据数据挖掘的重要特征。因为非结构化数据处理的成功与否决定了大数据数据源的质量好坏,而这并不是算法可以解决的。
2. 从抽样数据到全量数据。传统数据挖掘受制于数据处理能力,只能使用少量的抽样数据进行分析。在大数据技术环境下,完全可以实现全量数据的分析,效率甚至可能高于抽样数据的分析。
3. 从因果关系到相关性分析。大数据分析通过事件和多种因素进行相关性分析,通过数据挖掘和机器学习的算法找到其关联关系,并运用回归分析从而实现预测。
数据挖掘的任务按照目标可以分为4类:
1) 分类:通过分析训练集的数据,为每一个分类建立分类分析模型,用这个已知的规律对其他数据进行分类
2) 回归:建立因变量和自变量之间关系的模型
3) 聚类:将对象集合分成由类似的对象组成的多个类的过程
4) 关联规则:寻找给定数据集合中各个因子之间的关联关系
人们经常见到的“逻辑回归模型”、“神经网络模型”、“遗传算法”、“决策树”等等都是监督学习过程的挖掘算法。这类算法在机器学习和深度学习里面大量使用,是大数据公司必备的专业技能。极光大数据作为国内领先的移动大数据服务商,在这方面的实际案例颇多,例如极光大数据团队利用神经网络算法预测个人前往某一个特定区域的概率和时间,准确度可以达到80%以上;他们还利用神经网络算法和随机森林算法对个人喜欢的移动应用进行推荐下载和推荐产品;此外,极光大数据团队还自主开发了空间轨迹相似度STS(spatial trajectory similarity)算法进行同轨分析等。
数据挖掘技术随着大数据时代的到来已变幻出更强的功能特征,而在大数据服务商的精耕细作下,也必将为各行业带来进步的动力。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
数据分析的核心价值在于用数据驱动决策,而指标作为数据的“载体”,其选取的合理性直接决定分析结果的有效性。选对指标能精准定 ...
2026-01-23在MySQL查询编写中,我们习惯按“SELECT → FROM → WHERE → ORDER BY”的语法顺序组织语句,直觉上认为代码顺序即执行顺序。但 ...
2026-01-23数字化转型已从企业“可选项”升级为“必答题”,其核心本质是通过数据驱动业务重构、流程优化与模式创新,实现从传统运营向智能 ...
2026-01-23CDA持证人已遍布在世界范围各行各业,包括世界500强企业、顶尖科技独角兽、大型金融机构、国企事业单位、国家行政机关等等,“CDA数据分析师”人才队伍遵守着CDA职业道德准则,发挥着专业技能,已成为支撑科技发展的核心力量。 ...
2026-01-22在数字化时代,企业积累的海量数据如同散落的珍珠,而数据模型就是串联这些珍珠的线——它并非简单的数据集合,而是对现实业务场 ...
2026-01-22在数字化运营场景中,用户每一次点击、浏览、交互都构成了行为轨迹,这些轨迹交织成海量的用户行为路径。但并非所有路径都具备业 ...
2026-01-22在数字化时代,企业数据资产的价值持续攀升,数据安全已从“合规底线”升级为“生存红线”。企业数据安全管理方法论以“战略引领 ...
2026-01-22在SQL数据分析与业务查询中,日期数据是高频处理对象——订单创建时间、用户注册日期、数据统计周期等场景,都需对日期进行格式 ...
2026-01-21在实际业务数据分析中,单一数据表往往无法满足需求——用户信息存储在用户表、消费记录在订单表、商品详情在商品表,想要挖掘“ ...
2026-01-21在数字化转型浪潮中,企业数据已从“辅助资源”升级为“核心资产”,而高效的数据管理则是释放数据价值的前提。企业数据管理方法 ...
2026-01-21在数字化商业环境中,数据已成为企业优化运营、抢占市场、规避风险的核心资产。但商业数据分析绝非“堆砌数据、生成报表”的简单 ...
2026-01-20定量报告的核心价值是传递数据洞察,但密密麻麻的表格、复杂的计算公式、晦涩的数值罗列,往往让读者望而却步,导致核心信息被淹 ...
2026-01-20在CDA(Certified Data Analyst)数据分析师的工作场景中,“精准分类与回归预测”是高频核心需求——比如预测用户是否流失、判 ...
2026-01-20在建筑工程造价工作中,清单汇总分类是核心环节之一,尤其是针对楼梯、楼梯间这类包含多个分项工程(如混凝土浇筑、钢筋制作、扶 ...
2026-01-19数据清洗是数据分析的“前置必修课”,其核心目标是剔除无效信息、修正错误数据,让原始数据具备准确性、一致性与可用性。在实际 ...
2026-01-19在CDA(Certified Data Analyst)数据分析师的日常工作中,常面临“无标签高维数据难以归类、群体规律模糊”的痛点——比如海量 ...
2026-01-19在数据仓库与数据分析体系中,维度表与事实表是构建结构化数据模型的核心组件,二者如同“骨架”与“血肉”,协同支撑起各类业务 ...
2026-01-16在游戏行业“存量竞争”的当下,玩家留存率直接决定游戏的生命周期与商业价值。一款游戏即便拥有出色的画面与玩法,若无法精准识 ...
2026-01-16为配合CDA考试中心的 2025 版 CDA Level III 认证新大纲落地,CDA 网校正式推出新大纲更新后的第一套官方模拟题。该模拟题严格遵 ...
2026-01-16在数据驱动决策的时代,数据分析已成为企业运营、产品优化、业务增长的核心工具。但实际工作中,很多数据分析项目看似流程完整, ...
2026-01-15