关联规则挖掘在数据录入、校对系统中的应用-CDA数据分析师官网

热线电话：13121318867

关联规则挖掘在数据录入、校对系统中的应用

2016-01-12

关联规则挖掘在数据录入、校对系统中的应用

数据的准确录入和高效的校对是各行业的产品数据分析的基础，提高数据录入的精确性对各行业的产品数据分析有着重要的支撑作用，是后期数据分析的科学基础。在传统的数据校验方法的基础上，数据分析师在采用数据挖掘知识中的关联规则能更有效地提高数据录入的精确性以及校对的高效性。

数据分析师在数据挖掘的知识模式中，关联规则模式是比较重要的一种。关联规则的概念由Agrawal、Imielinski等人提出，是数据挖掘技术中一种相对简单但很实用的规则。可以采用关联规则挖掘技术对各行业的数据录入、校对、处理提供支持，从而提高数据处理的准确性。

1 数据挖掘和关联规则的基本概念

1．1 数据挖掘

数据挖掘是一个从大量的数据中发现潜在的、新颖的、有价值的信息和知识（模型或规则）的过程；它是根据目标对数据进行探索和分析，揭示其中隐含的规律，并进一步将其模型化的先进有效的技术过程。数据挖掘是一门交叉学科，它集成了许多学科中成熟的工具和技术，包括数据库技术、统计学、机器学习、模型识别、人工智能、神经网络等等。

数据挖掘包括：分类（Classification）、估值（Estimation）、预测（Prediction）、相关性分组或关联规则（Affinity grouping or association rules）、聚类（Clustering）、描述和可视化（Description and Visualization）。

1．2 关联规则

关联规则是在交易数据、关系数据或其他信息载体中，查找存在于项目集合或对象集合之间的频繁模式、关联、相关性、或因果结构，通过分析数据或记录间的关系，决定哪些事情将一起发生。

设I={i1, i2,…, in}是项的集合，其中的元素称为项,S为T的集合，这里T是项的集合，并且T I 。如果X T，那么称T包含X。

一个关联规则是形如X==>Y的蕴涵式，这里X I, Y I，并且X Y= 。规则X==>Y在集合S中的支持度（support）是S集中包含X和Y的数与所有项数之比，记为support(X==>Y)，即：support(X==>Y)= {T : X Y T，T S} / S

规则X==>Y的可信度是指包含X和Y的数与包含X的数之比，记为confidence(X==>Y)，即：confidence(X==>Y)={T: X Y T，T S} / {T:X T，T S}

关联规则挖掘的任务是：给定一个集S，求出所有满足最小支持度和最小可信度的关联规则。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；