这里我们通过一个实例来演示SPSS Modeler数据流的运行流程,该例子根据电信用户的个人特征和消费情况来预测用户是否会流失!
1 导入数据
将源选项卡下面的Statistics节点添加到数据流编辑区域。
双击Statistics节点将其打开;
点击导入文件按钮,选择数据文件的位置。
2 检查数据是否导入成功
将输出选项卡下面的表节点添加到流编辑区域,并与Statistics节点连接。
双击表节点将其打开,然后点击下方的运行按钮。
数据将会从电脑中的数据文件读取到SPSS Modeler的表中,其中最后一例表示样本中电信用户是否流失。
3 添加类型节点
将字段选项选项卡下面的类型节点添加到流编辑区域,并与Statistics节点连接。
双击类型节点将其打开,将流失变量的角色修改为目标,其他变量的角色为输入。表示通过其他变量来预测流失变量。
4 构建模型
这里选择logistic模型来预测电信用户是否流失!
将建模选项卡下面的logistic节点添加到流编辑区域,并与类型节点连接。
双击logistic节点将其打开,并点击下方的运行按钮,模型开始执行训练过程。
模型训练好后,会自动加入到数据流中。
双击模型节点将其打开,窗口中显示了模型估计信息,即logistic模型的表达式。可以通过切换上方的高级选项卡来进一步显示更详细的模型信息。
在统计模型中,我们更关心logistic模型的表达式及显著性,从而判断变量之间的关系。但是在数据挖掘中,我们更关心模型的预测。
将输出选项卡下面的表节点添加到流编辑区域,并与模型节点连接。
双击表节点将其打开,然后点击下方的运行按钮。执行数据运算后,表中列出了流水变量的预测值。
为了直观统计模型的预测准确率,可以将输出选项卡下面的分析节点添加到数据流中,并与模型连接。
双击分析节点将其打开,其中显示了模型整体的预测准确率。