关联分析的数据处理操作(spss18及clementin12操作)
什么是关联分析
关联分析是指如果两个或多个事物之间存在一定的关联,那么其中一个事物就能通过其他事物进行预测.它的目的是为了挖掘隐藏在数据间的相互关系 ,在数据挖掘的基本任务中关联(association)和顺序序贯模型(sequencing)关联分析是指搜索事务数据库
(trarisactional databases)中的所有细节或事务,从中寻找重复出现概率很高的模式或规则。其属于灰色理论中的一种分析方法。
方法一:
我们在做关联分析时常常看到的原始数据是这样的(用户的唯一标示、购买的产品):
关联分析则是需要这样的数据格式:
即:UID为101的用户,购买了a、b、c,UID为102的用户购买a,1代表购买,0代表未买
下来我们用spss18来进行数据转换操作:
第一步,在
数据选项中选择重组,在填出的窗口上点击确定(对原始数据备份)
第二步,选择第二个选项,然后点击下一步
第三步:选择标示变量UID及索引变量(购买产品),点击下一步
第四步,选择第一个选项并点击下一步
第五步,选择按初始变量排序组合,创建指示符变量
直接点击完成,数据转化完成!!!
首先在文件选项中点击新建并选择语法,直接复制以下syntax,并运行即可:
SORT CASES BY UID SORC.
CASESTOVARS
/ID=UID
/INDEX=SORC
/GROUPBY=VARIABLE
/VIND ROOT=ind.
如图:
方法三(clementine12操作):
人工在类型中设定‘购买产品’
字段为“集合”类型,接入设为标志节点,如图定义,修改T为1,F为0 ,汇总关键字选择用户UID标志,接入表节点查看,搞定