样本操作 - 炊数据

样本操作

Reads: 2656 Edit

1 功能描述

数据读取到SPSS Modeler后，就可以对样本进行一些基本的处理和统计。在SPSS Modeler中关于样本处理功能的节点位于“记录选项”选项卡下面！我们通过几个例子来演示主要节点的用法。

2 追加节点

DRUG-twopart.xls数据文件中包含两个表，分别为part1和part2，两个表中各有100条样本，现在我们想将这两部分数据都读取到SPSS Modeler中，并且进行合并。

注：最简单的做法是直接将Excel中part2部分的数据复制粘贴到part1中，然后再导入SPSS Modeler。对于小样本这种做法可以，但是如果样本量非常大，或者part2存放在SQL数据库中，那么这种方法将不再简单。此时我们可以借助SPSS Modeler中提供的追加节点来实现上述任务。

首先，将“源”选项卡下面的Excel节点添加到数据流编辑区域，注意要添加两个。

双击第一个Excel节点将其打开，选择DRUG-twopart.xls文件的存放路径，并在选择工作表中的按名称中输入：part1，点击确定。

双击第二个Excel节点将其打开，选择DRUG-twopart.xls文件的存放路径，并在选择工作表中的按名称中输入：part2，点击确定。

将“记录选项”选项卡下面的追加节点添加到流编辑区域，并且两个Excel节点均连接到追加节点。

双击追加节点将其打开，在字段匹配依据中选择名称（由于Excel中part1和part2里变量名称一致），点击确定。

为了检验追加命令是否完成，将“输出”选项卡下面的表添加到数据流中。

双击表节点将其打开，点击运行，追加后的样本数据将载入到表中，可以发现，此时读取了200个样本，表明追加功能完成。

3 选择节点

选择节点可以安装一定的条件对样本进行筛选。例如，在DRUG-twopart.xls的数据文件中，我们想筛选出年龄大于60岁的样本。

我们在追加节点的基础上，将“记录选项”选项卡下面的选择节点添加到数据流中

双击选择节点将其打开，模式选择包括；条件中数据：Age>=60，点击确定。

回到数据流中，将“输出”选项卡下面的表节点加入数据流，并与选择节点连接。

双击表节点将其打开，然后点击运行。可以发现，表中载入了所有年龄大于60岁的样本。

4 样本节点

样本节点可以对原始数据进行再抽样。例如，在DRUG-twopart.xls的数据文件中，我们想随机抽取四分之一的样本进行研究。

我们在追加节点的基础上，将“记录选项”选项卡下面的样本节点添加到数据流中

双击样本节点将其打开，在“样本：”中选择n中取1，并输入4，这样将会随机抽取四分之一的样本。

注意：如果选择随机%，且输入25，则表示每个样本被抽中的概率是25%，而不是抽取四分之一的样本。

回到数据流中，将“输出”选项卡下面的表节点加入数据流，并与样本节点连接。

双击表节点将其打开，然后点击运行。可以发现，表中载入了50个（总共200个）的样本。

5 合并节点

Telephone-个人信息.sav和Telephone-消费信息.sav两个数据文件分别存放了电信用户的个人信息和消费信息数据。现在我们想将两组数据进行合并。

首先，将“源”选项卡下面的Statistics节点添加到数据流编辑区域，注意要添加两个。

双击第一个Statistics节点将其打开，选择Telephone-个人信息文件的存放路径，其他保持默认，点击确定。

双击第二个Statistics节点将其打开，选择Telephone-消费信息文件的存放路径，其他保持默认，点击确定。

将“记录选项”选项卡下面的合并节点添加到流编辑区域，并且两个Statistics节点均连接到合并节点。

双击合并节点将其打开，合并方法选择关键字；将两个表中共同的变量“ID”移动到右侧“用于合并的关键字”框中。

下方的合并类型选择“仅包含匹配的记录（内部连接）”表示只有ID同时存在两个数据文件的样本被保留，如果ID仅存在一个数据文件中，则将该样本删除。另外“包含匹配和不匹配的记录（完全外部连接）”表示无论是否匹配成功都将样本保留。

为了检验追加命令是否完成，将“输出”选项卡下面的表添加到数据流中。

双击表节点将其打开，点击运行，合并后的样本数据将载入到表中。Telephone-个人信息.sav和Telephone-消费信息.sav两个数据文件中分别存放了900条样本，合并后的样本有825个，表明有75个样本未能匹配被删除。

6 排序节点

排序节点可以根据某个变量对样本整体进行排序。

我们在合并节点的基础上，将“记录选项”选项卡下面的排序节点添加到数据流中

双击排序节点将其打开，在排序方式中，分别添加收入和性别变量，顺序选择降序，然后点击确定。

回到数据流中，将“输出”选项卡下面的表节点加入数据流，并与排序节点连接。

双击表节点将其打开，然后点击运行。可以发现，样本首先根据收入进行排序，当收入相同时再按照性别进行排序。

7 汇总节点

汇总节点可以对选择的变量进行分类汇总统计。

我们在合并节点的基础上，将“记录选项”选项卡下面的汇总节点添加到数据流中

双击汇总节点将其打开，在关键字段中加入流失；在汇总字段中加入年龄和收入，并勾选平均值和标准差；点击确定。这样，将会按照流失变量分类统计年龄、收入的平均值和标准差。

回到数据流中，将“输出”选项卡下面的表节点加入数据流，并与汇总节点连接。

双击表节点将其打开，然后点击运行。可以发现，样本按照流失变量进行了分类，其中流失为0的样本有570个，流失为1的样本有255个。

8 区分节点

区分节点可以根据选中的变量包含或丢弃有区分值的样本

我们在合并节点的基础上，将“记录选项”选项卡下面的区分节点添加到数据流中

双击区分节点将其打开，模式选择每组仅包括首个记录；用于分组的关键字字段中加入居住地和性别，组内记录排序标准选择收入；点击确定。这样，样本会根据居住地和性别分组，然后每组内按照收入进行排序，最终每组只保留第1个样本。

回到数据流中，将“输出”选项卡下面的表节点加入数据流，并与区分节点连接。

双击表节点将其打开，然后点击运行。可以发现，一共输出了6个样本（居住地有3个，性别有两个，3乘以2等于6）。

9 平衡节点

区分节点可以对选中变量类别的个数进行调整，使每种类别的样本数大致相等。

我们在合并节点的基础上，将“记录选项”选项卡下面的平衡节点添加到数据流中。

双击平衡节点将其打开，平衡指令中，因子设为0.45，条件输入“流失=0”，点击确定。由于流失为0的样本数大约是流失为1的样本数的2倍，所以这里将流失=0的样本数减少到原来的0.45.

回到数据流中，将“记录选项”选项卡下面的汇总节点加入数据流，并与平衡节点连接。

双击汇总节点将其打开，在关键字段中加入流失；在汇总字段留空，默认模式勾选总数和平均值；点击确定。

回到数据流中，将“输出”选项卡下面的表节点加入数据流，并与汇总节点连接。

双击表节点将其打开，然后点击运行。可以发现，样本按照流失变量进行了分类，其中流失为0的样本有273个，流失为1的样本有255个。基本达到了平衡。

获取案例数据，请关注微信公众号并回复:`Modeler_dt3`

Comments

Make a comment

Index