关于数据挖掘关联规则的Oracle实现-CDA数据分析师官网

热线电话：13121318867

首页精彩阅读关于数据挖掘关联规则的Oracle实现

关于数据挖掘关联规则的Oracle实现

2017-01-09

关于数据挖掘关联规则的Oracle实现

前几天拿到了数据挖掘基础教程一书，感觉部分算法是基于统计学的原理的，而统计学是可以通过Oracle来实现。

其次是为了观看德国vs西班牙的世界杯比赛，来了一点小小的兴致，动手写点小脚本。不过本文只是为了实现而实现的，没有做任何优化，有兴趣的话，大家可以玩一玩。

关于数据挖掘关联规则的材料，可以参见：

http://baike.baidu.com/view/1076817.htm?fr=ala0_1

关联规则是形如X→Y的蕴涵式，

其中且， X和Y分别称为关联规则的先导(antecedent或left-hand-side, LHS)和后继(consequent或 right-hand-side, RHS) 。

关联规则在D中的支持度(support)是D中事务同时包含X、Y的百分比，即概率； =X^Y/D

置信度(confidence)是包含X的事务中同时又包含Y的百分比，即条件概率。 =(X^Y)/X

关联规则是有趣的，如果满足最小支持度阈值和最小置信度阈值。

若给定最小支持度α = n，最小置信度β = m，则分别通过以上的X^Y/D和(X^Y)/X，可获知是否存在关联

使用的原始数据

反范式后的数据

待统计项

--创建各个购买单元项视图

create view distinct_trans as select distinct tranobject from purchase;

--创建各个事务内部的购买单元项

create view all_trans as

--可以用wm_concat函数

SELECT tranid,MAX(tranobjects) tranobjects

FROM (select tranid,WMSYS.WM_CONCAT(tranobject) OVER(PARTITION BY tranid ORDER BY tranobject) tranobjects

from purchase

)

group by tranid;

--也可以用sys_connect_by_path函数

create view all_trans as

select tranid,substr(tranobjects,2) tranobjects from --格式化前面的逗号和空格

(

select distinct tranid,FIRST_VALUE(tranobjects) OVER(PARTITION BY tranid ORDER BY levels desc ) AS tranobjects --保留最大的那个

from

(

select tranid,sys_connect_by_path(tranobject,',') tranobjects,level levels --各购买事务的内部排列组合

from purchase

connect by tranid=prior tranid and tranobject

)

);

--对所有购买单元项进行排列组合，即数据挖掘的X^Y项

create view all_zuhe as

select substr(sys_connect_by_path(tranobject,','),2) zuhe

from (select distinct tranobject from purchase)

connect by nocycle tranobject

select * from all_zuhe

--筛选出符合要求的排列组合，即数据挖掘的X项和Y项

create view full_zuhe as

select a.zuhe X,b.zuhe Y from all_zuhe a,all_zuhe b

where instr(a.zuhe,b.zuhe)=0 and instr(b.zuhe,a.zuhe)=0

and not exists(select 1 from distinct_trans c

where instr(a.zuhe,c.tranobject)>0 and instr(b.zuhe,c.tranobject)>0)

select * from full_zuhe

create or replace view tongji as

select xy,xy_total,x,x_total,y,y_total,transtotal from

(

select y||','||x xy,

(select count(*) from all_trans a where instr(a.tranobjects,c.x||','||c.y)>0 or instr(a.tranobjects,c.y||','||c.x)>0) xy_total, --包含xy的事务数

(select count(*) from all_trans b where instr(b.tranobjects,c.y)>0) y_total, --包含y的事务数

(select count(*) from all_trans b where instr(b.tranobjects,c.x)>0) x_total, --包含x的事务数

d.transtotal --总事务数

from full_zuhe c,(select count(distinct tranid) transtotal from purchase) d

order by xy_total desc,x_total desc

)

select * from tongji where xy_total>=3 and y_total>=3

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

关联规则数据挖掘

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇图论在大数据分析中的作用！

下一篇CDA认证再升一档！与国家共同推进大数据人才培养标准教育事业！

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

关于数据挖掘关联规则的Oracle实现

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】主成分分析（PCA）实战全解析：从原理简 ...

【CDA干货】解析数据分析中基准比的本质：离基准值 ...

CDA数据分析师：驾驭业务数据分析全步骤，赋能业务 ...

【CDA干货】信贷违约率的统计分布特征与测算方法研 ...

【CDA干货】业务效果AB增量评估体系：搭建、实操与 ...

CDA数据分析师：以战略分析方法为翼，赋能企业长远 ...

【CDA干货】复杂抽样的统计描述：方法、要点与实操 ...

【CDA干货】详解聚合函数：可一次使用多个吗？实操 ...

CDA数据分析师视角：战略数据分析与业务数据分析的 ...

【CDA干货】详解B+树叶子节点指针：双向还是单向？ ...

【CDA干货】警惕！REPLACE(UUID(), '-', '')用于INS ...

CDA数据分析师与商业数据分析总体流程：全链路实操 ...

【CDA干货】通过标准差与平均值关系衡量数据波动性 ...

【CDA干货】基于GB标准的t检验、F检验与显著性差异 ...

CDA数据分析师与统计制图：以可视化赋能数据叙事与 ...

【CDA干货】箱线图上下限在线计算：原理、工具与实 ...

【CDA干货】多重共线性下的变量保留策略：平衡信息 ...

CDA数据分析师与六种核心分析方法：从工具到价值的 ...

【CDA干货】特征重要性分析：从模型到业务的核心决 ...

【CDA干货】关联分析之支持度：核心指标的本质、应 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载