关联规则

Reads: 665 Edit

1 功能描述

关联规则是数据挖掘的另一项十分重要的任务,对于超市的管理者来说,其可以通过关联规则快速的发现销售商品之间的关系,进而对商品的摆放位置和价格进行调整。

关联规则可以分别一般的关联规则和时序关联规则(序列)。

2 关联规则

我们这里将采用BASKETS.txt数据文件,根据客户的购买记录来发现商品之间的关联规则。

首先需要将数据读取到SPSS Modeler软件中。将“源”选项卡下面的可变节点添加到流编辑区域

mdl-300

双击打开可变节点;选择BASKETS.txt文件的存放路径,其他保持默认,点击确定。

mdl-301

将“输出”选项卡下面的表节点添加到数据流中,点击运行,可以发现数据已成功读取到SPSS Modeler中,其中,前面几列是客户的基本信息,后面是消费的商品,对于某个商品,T表示购买,F表示没有购买。

mdl-302

将“字段选项”选项卡下面的类型节点添加到数据流中,并与可变文件节点连接。类型节点主要是为了对数据进行实例化。

mdl-303

将“建模”选项卡下面的“Apriori”节点添加到数据流,并与类型节点连接。

mdl-304

双击打开“Apriori”节点。在字段页面,后项将所有的商品变量加入;前项除了将所有的商品变量加入外,还可以把sex和homeown变量加入,即性别也可能会影响商品的购买行为。

mdl-305

在Apriori节点的设置中,模型页面可以设置规则支持度和置信度,以及最大前项数。这里为了演示,将支持度设为10%,置信度设为80%。其他保持默认,点击运行。

注意:如果规则支持度和置信度太高,可能无法找出关联规则。

mdl-306

模型训练好后,将自动添加到数据流中。

mdl-307

双击打开训练好的Apriori模型,可以发现一共找到了6条关联规则。第一条表示性别为男性且购买了啤酒和冻肉的同时会购买罐装蔬菜,该规则的支持度和置信度分别为14.8和95.27

mdl-308

3 序列

我们这里将采用webData.sav数据文件,采用序列模型来研究用户浏览网页间的时间先后顺序及关系。

首先需要将数据读取到SPSS Modeler软件中。将“源”选项卡下面的Statistics节点添加到流编辑区域

mdl-309

双击打开Statistics节点;选择webData.sav文件的存放路径,点击确定。

mdl-310

将“输出”选项卡下面的表节点添加到数据流中,点击运行,可以发现数据已经导入到SPSS Modeler软件中。CustomerGuid表示用户id,sequence表示浏览网页的时间先后顺序,URLCategory表示浏览的网页。

mdl-311

将“字段选项”选项卡下面的类型节点添加到数据流中,并与Statistics节点连接。类型节点主要是为了数据的实例化。

mdl-312

将“建模”选项卡下面的“序列”节点添加到数据流,并与类型节点连接。

mdl-313

双击打开序列节点,在字段页面,ID字段选择用户id“CustomerGuid”,勾选使用时间字段并选择“SequenceID”,内容自动输入“URLCategory”。

mdl-314

在模型页面可以设置规则支持度和置信度。这里为了顺利找出关联规则,将支持度和置信度分别设为10%和50%。其他保持默认,点击运行。

mdl-315

模型训练好后,将自动添加到数据流中。

mdl-316

双击打开训练好的序列模型,可以发现一共找到了3条关联规则。第一条表示浏览了Flight网页后会浏览Hotel的网页,该规则的支持度和置信度分别为11.9和86.555.

mdl-317



获取案例数据,请关注微信公众号并回复:Modeler_dt11


Comments

Make a comment