基础统计分析

Reads: 621 Edit

1 功能描述

数据读取到SPSS Modeler,在建模前,需要对变量的异常值进行处理,对变量分布进行变换,以及做一些基本的统计分析。这些节点功能在SPSS Modeler中“输出”选项卡下面。

应该注意到的是,“输出”选项卡下面的节点的应用是贯穿在SPSS Modeler数据挖掘的各个环节。例如读取数据后可以通过“输出”选项卡下面的表节点来查看;构建完模型后可以“输出”选项卡下面的分析节点来查看模型的训练效果。除此之外,还有数据审核、变换、统计量等功能,我们通过几个例子来演示主要节点的用法。

但总的来说,“输出”选项卡下面的节点都属于数据流上分支的末端,即节点后面不能再链接节点。

mdl-202

2 数据审核

我们以DRUG-imperfect.xls数据集为例来演示,首先将其读取到SPSS Modeler中

首先,将“源”选项卡下面的Excel节点添加到数据流编辑区域。

mdl-203

双击Excel节点将其打开,选择DRUG-imperfect.xls文件的存放路径,其他保持默认,然后点击确定。

mdl-204

将“输出”选项卡下面的表添加到数据流中,并与Excel节点连接。

双击表节点将其打开,点击运行,数据将载入到表中。检查数据发现,Age变量中有一个样本数值为430,明显与现实不符,可能是录入原始数据时手误输错;Na和K变量下面均有一些缺失值。

mdl-205

将“字段选项”选项卡下面的类型节点添加到数据流中,并与Excel节点连接。

说明:类型节点主要是用于数据的实例化

mdl-206

将“输出”选项卡下面的数据审核节点添加到数据流中,并与类型节点连接。

mdl-207

双击打开数据审核节点,点击质量切换到质量页面,其中离群值和极值得检测方法有两种,默认是平均值的标准差方法,我们这里保持默认,在实际应用中如果结果不理想可以换成四分位数方法。

直接点击运行按钮。

mdl-208

在出现的数据审核窗口中,审核页面给出了个变量的分布图形和描述性统计。点击质量切换到质量页面。

mdl-209

在质量页面,可以看到Age变量有一个极值(没有离群值),在操作列里选择处理极值的方法,这里选择“丢弃”表示把存在极值的样本直接删除,当然也可以选择“强制”将极值替换为平均值。

mdl-210

在质量页面,点击生成按钮,并选择“离群值和极值超节点”。

mdl-211

在弹出的窗口中保持默认选项(所有字段),点击确定。

mdl-212

关闭数据审核窗口返回数据流,可以发现流编辑区域多了一个“离群值和极值”超节点。我们将该超节点连接到类型节点后面。

mdl-213

将“输出”选项卡下面的表添加到数据流中,并与超节点节点连接。

双击表节点将其打开,点击运行,可以发现已经将Age为430的样本整体删除,还有199个样本(之前总共200个样本)。

mdl-214

处理完极值后,我们再将“输出”选项卡下面的数据审核节点添加到数据流,并与离群值和极值超节点连接。

mdl-215

双击打开数据审核节点,在数据审核窗口中切换到质量页面,可以发现Age变量已经不存在离群值和极值。现在我们对缺失值进行处理。

在Na变量的缺失插补列中选择指定。

mdl-216

在指定窗口中,插补时间:选择“无效值”;插补方法:选择“算法”(SPSS Modeler只提供了C&RT一种算法,即根据决策树模型对缺失值进行预测),点击确定。

mdl-217

除了采用算法对模型进行预测外,还可以采用平均值或者随机数来填充缺失值。

对于K变量,在缺失插补列中选择“无效值”,而方法中直接选择固定(中位数来代替无效值)。

mdl-218

选择好无效值的处理方法后,点击窗口上的生成按钮,并点击缺失值超节点。

mdl-219

在缺失值超节点窗口中,保持默认选项(所有字段),点击确定。

mdl-220

关闭数据审核窗口返回数据流,可以发现流编辑区域多了一个“缺失值插补”超节点。我们将该超节点连接到“离群值和极值”超节点后面。

mdl-221

将“输出”选项卡下面的表添加到数据流中,并与超节点节点连接。

双击表节点将其打开,点击运行,可以发现Na和K变量中的缺失值已经被插补。

mdl-222

3 变换

将“输出”选项卡下面的变换节点添加到数据流中,并与“缺失值插补”超节点连接。

mdl-223

双击打开变换节点,将Na和K变量添加到字段中,点击运行。

mdl-224

变换窗口给出了Na和K变量在各种变换形式下的分布。为了使分布平衡,对于Na变量我们选择取倒数变换,对于K变量我们选择Log10变换。

mdl-225

设置好变换形式后,点击变换窗口上的生成按钮,并点击导出节点。

mdl-226

在生成导出节点窗口,保持默认选项(也可以选择标准化转换),点击确定。

mdl-227

关闭变换窗口返回数据流,可以发现流编辑区域多了一个“超节点转换”超节点。我们将该超节点连接到“缺失值插补”超节点后面。

mdl-228

将“输出”选项卡下面的表添加到数据流中,并与超节点节点连接。

双击表节点将其打开,点击运行,可以发现数据中多了Na和K变换后的数据列。

mdl-229

4 统计量

将“输出”选项卡下面的统计量节点添加到数据流中,并与“超节点转换”超节点连接。

mdl-230

双击打开统计量节点,将Na和K变量添加到检查中,点击运行。

mdl-231

在统计量窗口中给出了Na和K变量的描述性统计。

mdl-232

5 均值

T检验和方差分析是样本均值比较的经典统计模型,在SPSS Modeler中可以非常方便的实现。

将“输出”选项卡下面的均值节点添加到数据流中,并与“超节点转换”超节点连接。

mdl-233

5.1 独立样本T检验

双击打开均值节点。比较平均值中选择:字段中组之间;分组字段选择:Cholesterol;测试字段选择Na,点击运行。

说明:该设置可以比较胆固醇高低两组人群血液中的Na含量均值是否相等,由于胆固醇(Cholesterol)变量只有高低两个取值,所以属于独立样本T检验。

mdl-234

均值估计窗口中,我们将试图切换到高级页面。其中重要性显示不重要,即胆固醇高低两组人群血液中的Na含量均值不存在差异。

mdl-235

5.2 方差分析

再次双击打开均值节点。比较平均值中选择:字段中组之间;分组字段选择:BP;测试字段选择Na,点击运行。

说明:该设置可以比较血压高中低三组人群血液中的Na含量均值是否相等,由于血压(BP)变量有高中低三个取值,所以属于方差分析检验(大于两个取值就是方差分析)。

mdl-236

均值估计窗口中,我们将试图切换到高级页面。其中重要性显示一般重要,表明在95%的水平上血压高中低三组人群血液中的Na含量均值存在差异。

mdl-237

5.3 配对样本T检验

再次双击打开均值节点。比较平均值中选择:字段对之间;字段1选择Na且字段2选择K,然后点击添加将Na-K字段对添加到测试字段对框中,点击运行。

说明:该设置可以比较被试验人群血液中的Na和K含量是否存在差异。由于Na和K样本是一一匹配的(同一个人的数据),所以属于配对T检验。

mdl-238

均值估计窗口中,我们将试图切换到高级页面。其中重要性显示重要,表明在99%的水平上人体血液中的Na和K含量存在差异。

mdl-239



获取案例数据,请关注微信公众号并回复:Modeler_dt7


Comments

Make a comment