样本操作

Reads: 902 Edit

1 功能描述

数据读取到SPSS Modeler后,就可以对样本进行一些基本的处理和统计。在SPSS Modeler中关于样本处理功能的节点位于“记录选项”选项卡下面!我们通过几个例子来演示主要节点的用法。

mdl-68

2 追加节点

DRUG-twopart.xls数据文件中包含两个表,分别为part1和part2,两个表中各有100条样本,现在我们想将这两部分数据都读取到SPSS Modeler中,并且进行合并。

注:最简单的做法是直接将Excel中part2部分的数据复制粘贴到part1中,然后再导入SPSS Modeler。对于小样本这种做法可以,但是如果样本量非常大,或者part2存放在SQL数据库中,那么这种方法将不再简单。此时我们可以借助SPSS Modeler中提供的追加节点来实现上述任务。

mdl-69

首先,将“源”选项卡下面的Excel节点添加到数据流编辑区域,注意要添加两个。

mdl-70

双击第一个Excel节点将其打开,选择DRUG-twopart.xls文件的存放路径,并在选择工作表中的按名称中输入:part1,点击确定。

mdl-71

双击第二个Excel节点将其打开,选择DRUG-twopart.xls文件的存放路径,并在选择工作表中的按名称中输入:part2,点击确定。

mdl-72

将“记录选项”选项卡下面的追加节点添加到流编辑区域,并且两个Excel节点均连接到追加节点。

mdl-73

双击追加节点将其打开,在字段匹配依据中选择名称(由于Excel中part1和part2里变量名称一致),点击确定。

mdl-74

为了检验追加命令是否完成,将“输出”选项卡下面的表添加到数据流中。

mdl-75

双击表节点将其打开,点击运行,追加后的样本数据将载入到表中,可以发现,此时读取了200个样本,表明追加功能完成。

mdl-75-1

3 选择节点

选择节点可以安装一定的条件对样本进行筛选。例如,在DRUG-twopart.xls的数据文件中,我们想筛选出年龄大于60岁的样本。

我们在追加节点的基础上,将“记录选项”选项卡下面的选择节点添加到数据流中

mdl-76

双击选择节点将其打开,模式选择包括;条件中数据:Age>=60,点击确定。

mdl-77

回到数据流中,将“输出”选项卡下面的表节点加入数据流,并与选择节点连接。

mdl-78

双击表节点将其打开,然后点击运行。可以发现,表中载入了所有年龄大于60岁的样本。

mdl-79

4 样本节点

样本节点可以对原始数据进行再抽样。例如,在DRUG-twopart.xls的数据文件中,我们想随机抽取四分之一的样本进行研究。

我们在追加节点的基础上,将“记录选项”选项卡下面的样本节点添加到数据流中

mdl-80

双击样本节点将其打开,在“样本:”中选择n中取1,并输入4,这样将会随机抽取四分之一的样本。

注意:如果选择随机%,且输入25,则表示每个样本被抽中的概率是25%,而不是抽取四分之一的样本。

mdl-81

回到数据流中,将“输出”选项卡下面的表节点加入数据流,并与样本节点连接。

mdl-82

双击表节点将其打开,然后点击运行。可以发现,表中载入了50个(总共200个)的样本。

mdl-83

5 合并节点

Telephone-个人信息.sav和Telephone-消费信息.sav两个数据文件分别存放了电信用户的个人信息和消费信息数据。现在我们想将两组数据进行合并。

mdl-84

首先,将“源”选项卡下面的Statistics节点添加到数据流编辑区域,注意要添加两个。

mdl-85

双击第一个Statistics节点将其打开,选择Telephone-个人信息文件的存放路径,其他保持默认,点击确定。

mdl-86

双击第二个Statistics节点将其打开,选择Telephone-消费信息文件的存放路径,其他保持默认,点击确定。

mdl-87

将“记录选项”选项卡下面的合并节点添加到流编辑区域,并且两个Statistics节点均连接到合并节点。

mdl-88

双击合并节点将其打开,合并方法选择关键字;将两个表中共同的变量“ID”移动到右侧“用于合并的关键字”框中。

下方的合并类型选择“仅包含匹配的记录(内部连接)”表示只有ID同时存在两个数据文件的样本被保留,如果ID仅存在一个数据文件中,则将该样本删除。另外“包含匹配和不匹配的记录(完全外部连接)”表示无论是否匹配成功都将样本保留。

mdl-89

为了检验追加命令是否完成,将“输出”选项卡下面的表添加到数据流中。

mdl-90

双击表节点将其打开,点击运行,合并后的样本数据将载入到表中。Telephone-个人信息.sav和Telephone-消费信息.sav两个数据文件中分别存放了900条样本,合并后的样本有825个,表明有75个样本未能匹配被删除。

mdl-91

6 排序节点

排序节点可以根据某个变量对样本整体进行排序。

我们在合并节点的基础上,将“记录选项”选项卡下面的排序节点添加到数据流中

mdl-92

双击排序节点将其打开,在排序方式中,分别添加收入和性别变量,顺序选择降序,然后点击确定。

mdl-93

回到数据流中,将“输出”选项卡下面的表节点加入数据流,并与排序节点连接。

mdl-94

双击表节点将其打开,然后点击运行。可以发现,样本首先根据收入进行排序,当收入相同时再按照性别进行排序。

mdl-95

7 汇总节点

汇总节点可以对选择的变量进行分类汇总统计。

我们在合并节点的基础上,将“记录选项”选项卡下面的汇总节点添加到数据流中

mdl-96

双击汇总节点将其打开,在关键字段中加入流失;在汇总字段中加入年龄和收入,并勾选平均值和标准差;点击确定。这样,将会按照流失变量分类统计年龄、收入的平均值和标准差。

mdl-97

回到数据流中,将“输出”选项卡下面的表节点加入数据流,并与汇总节点连接。

mdl-98

双击表节点将其打开,然后点击运行。可以发现,样本按照流失变量进行了分类,其中流失为0的样本有570个,流失为1的样本有255个。

mdl-99

8 区分节点

区分节点可以根据选中的变量包含或丢弃有区分值的样本

我们在合并节点的基础上,将“记录选项”选项卡下面的区分节点添加到数据流中

mdl-100

双击区分节点将其打开,模式选择每组仅包括首个记录;用于分组的关键字字段中加入居住地和性别,组内记录排序标准选择收入;点击确定。这样,样本会根据居住地和性别分组,然后每组内按照收入进行排序,最终每组只保留第1个样本。

mdl-101

回到数据流中,将“输出”选项卡下面的表节点加入数据流,并与区分节点连接。

mdl-102

双击表节点将其打开,然后点击运行。可以发现,一共输出了6个样本(居住地有3个,性别有两个,3乘以2等于6)。

mdl-103

9 平衡节点

区分节点可以对选中变量类别的个数进行调整,使每种类别的样本数大致相等。

我们在合并节点的基础上,将“记录选项”选项卡下面的平衡节点添加到数据流中。

mdl-104

双击平衡节点将其打开,平衡指令中,因子设为0.45,条件输入“流失=0”,点击确定。由于流失为0的样本数大约是流失为1的样本数的2倍,所以这里将流失=0的样本数减少到原来的0.45.

mdl-105

回到数据流中,将“记录选项”选项卡下面的汇总节点加入数据流,并与平衡节点连接。

mdl-106

双击汇总节点将其打开,在关键字段中加入流失;在汇总字段留空,默认模式勾选总数和平均值;点击确定。

mdl-107

回到数据流中,将“输出”选项卡下面的表节点加入数据流,并与汇总节点连接。

mdl-108

双击表节点将其打开,然后点击运行。可以发现,样本按照流失变量进行了分类,其中流失为0的样本有273个,流失为1的样本有255个。基本达到了平衡。

mdl-109



获取案例数据,请关注微信公众号并回复:Modeler_dt3


Comments

Make a comment