基础统计分析 - 炊数据

基础统计分析

Reads: 2283 Edit

1 功能描述

数据读取到SPSS Modeler，在建模前，需要对变量的异常值进行处理，对变量分布进行变换，以及做一些基本的统计分析。这些节点功能在SPSS Modeler中“输出”选项卡下面。

应该注意到的是，“输出”选项卡下面的节点的应用是贯穿在SPSS Modeler数据挖掘的各个环节。例如读取数据后可以通过“输出”选项卡下面的表节点来查看；构建完模型后可以“输出”选项卡下面的分析节点来查看模型的训练效果。除此之外，还有数据审核、变换、统计量等功能，我们通过几个例子来演示主要节点的用法。

但总的来说，“输出”选项卡下面的节点都属于数据流上分支的末端，即节点后面不能再链接节点。

2 数据审核

我们以DRUG-imperfect.xls数据集为例来演示，首先将其读取到SPSS Modeler中

首先，将“源”选项卡下面的Excel节点添加到数据流编辑区域。

双击Excel节点将其打开，选择DRUG-imperfect.xls文件的存放路径，其他保持默认，然后点击确定。

将“输出”选项卡下面的表添加到数据流中，并与Excel节点连接。

双击表节点将其打开，点击运行，数据将载入到表中。检查数据发现，Age变量中有一个样本数值为430，明显与现实不符，可能是录入原始数据时手误输错；Na和K变量下面均有一些缺失值。

将“字段选项”选项卡下面的类型节点添加到数据流中，并与Excel节点连接。

说明：类型节点主要是用于数据的实例化

将“输出”选项卡下面的数据审核节点添加到数据流中，并与类型节点连接。

双击打开数据审核节点，点击质量切换到质量页面，其中离群值和极值得检测方法有两种，默认是平均值的标准差方法，我们这里保持默认，在实际应用中如果结果不理想可以换成四分位数方法。

直接点击运行按钮。

在出现的数据审核窗口中，审核页面给出了个变量的分布图形和描述性统计。点击质量切换到质量页面。

在质量页面，可以看到Age变量有一个极值（没有离群值），在操作列里选择处理极值的方法，这里选择“丢弃”表示把存在极值的样本直接删除，当然也可以选择“强制”将极值替换为平均值。

在质量页面，点击生成按钮，并选择“离群值和极值超节点”。

在弹出的窗口中保持默认选项（所有字段），点击确定。

关闭数据审核窗口返回数据流，可以发现流编辑区域多了一个“离群值和极值”超节点。我们将该超节点连接到类型节点后面。

将“输出”选项卡下面的表添加到数据流中，并与超节点节点连接。

双击表节点将其打开，点击运行，可以发现已经将Age为430的样本整体删除，还有199个样本（之前总共200个样本）。

处理完极值后，我们再将“输出”选项卡下面的数据审核节点添加到数据流，并与离群值和极值超节点连接。

双击打开数据审核节点，在数据审核窗口中切换到质量页面，可以发现Age变量已经不存在离群值和极值。现在我们对缺失值进行处理。

在Na变量的缺失插补列中选择指定。

在指定窗口中，插补时间：选择“无效值”；插补方法：选择“算法”（SPSS Modeler只提供了C&RT一种算法，即根据决策树模型对缺失值进行预测），点击确定。

除了采用算法对模型进行预测外，还可以采用平均值或者随机数来填充缺失值。

对于K变量，在缺失插补列中选择“无效值”，而方法中直接选择固定（中位数来代替无效值）。

选择好无效值的处理方法后，点击窗口上的生成按钮，并点击缺失值超节点。

在缺失值超节点窗口中，保持默认选项（所有字段），点击确定。

关闭数据审核窗口返回数据流，可以发现流编辑区域多了一个“缺失值插补”超节点。我们将该超节点连接到“离群值和极值”超节点后面。

将“输出”选项卡下面的表添加到数据流中，并与超节点节点连接。

双击表节点将其打开，点击运行，可以发现Na和K变量中的缺失值已经被插补。

3 变换

将“输出”选项卡下面的变换节点添加到数据流中，并与“缺失值插补”超节点连接。

双击打开变换节点，将Na和K变量添加到字段中，点击运行。

变换窗口给出了Na和K变量在各种变换形式下的分布。为了使分布平衡，对于Na变量我们选择取倒数变换，对于K变量我们选择Log10变换。

设置好变换形式后，点击变换窗口上的生成按钮，并点击导出节点。

在生成导出节点窗口，保持默认选项（也可以选择标准化转换），点击确定。

关闭变换窗口返回数据流，可以发现流编辑区域多了一个“超节点转换”超节点。我们将该超节点连接到“缺失值插补”超节点后面。

将“输出”选项卡下面的表添加到数据流中，并与超节点节点连接。

双击表节点将其打开，点击运行，可以发现数据中多了Na和K变换后的数据列。

4 统计量

将“输出”选项卡下面的统计量节点添加到数据流中，并与“超节点转换”超节点连接。

双击打开统计量节点，将Na和K变量添加到检查中，点击运行。

在统计量窗口中给出了Na和K变量的描述性统计。

5 均值

T检验和方差分析是样本均值比较的经典统计模型，在SPSS Modeler中可以非常方便的实现。

将“输出”选项卡下面的均值节点添加到数据流中，并与“超节点转换”超节点连接。

5.1 独立样本T检验

双击打开均值节点。比较平均值中选择：字段中组之间；分组字段选择：Cholesterol；测试字段选择Na，点击运行。

说明：该设置可以比较胆固醇高低两组人群血液中的Na含量均值是否相等，由于胆固醇（Cholesterol）变量只有高低两个取值，所以属于独立样本T检验。

均值估计窗口中，我们将试图切换到高级页面。其中重要性显示不重要，即胆固醇高低两组人群血液中的Na含量均值不存在差异。

5.2 方差分析

再次双击打开均值节点。比较平均值中选择：字段中组之间；分组字段选择：BP；测试字段选择Na，点击运行。

说明：该设置可以比较血压高中低三组人群血液中的Na含量均值是否相等，由于血压（BP）变量有高中低三个取值，所以属于方差分析检验（大于两个取值就是方差分析）。

均值估计窗口中，我们将试图切换到高级页面。其中重要性显示一般重要，表明在95%的水平上血压高中低三组人群血液中的Na含量均值存在差异。

5.3 配对样本T检验

再次双击打开均值节点。比较平均值中选择：字段对之间；字段1选择Na且字段2选择K，然后点击添加将Na-K字段对添加到测试字段对框中，点击运行。

说明：该设置可以比较被试验人群血液中的Na和K含量是否存在差异。由于Na和K样本是一一匹配的（同一个人的数据），所以属于配对T检验。

均值估计窗口中，我们将试图切换到高级页面。其中重要性显示重要，表明在99%的水平上人体血液中的Na和K含量存在差异。

获取案例数据，请关注微信公众号并回复:`Modeler_dt7`

Comments

Make a comment

Index