聚类分析

Reads: 2515 Edit

1 功能描述

聚类是常见的多元统计分析模型,现实中聚类的问题也很常见,如我们常说物以类聚,人以群分。我们通常会对人的性格进行分类,会对物种进行分类等等。

2 K-Means聚类方法

我们这里将采用“地区经济社会发展.sav”数据文件,根据我国31个省市经济、社会、环境状况来对其进行分类。

K-Means聚类是常用的聚类方法,根据样本到各类别中心距离的远近来划分类别。

双击打开地区经济社会发展.sav数据文件,样本为我国31个省市,变量x1-x20是各地区经济社会发展状况。

spss-209

点击左下角的变量视图,切换到变量视图。可以看到x1-x20的具体描述,分别为人均GDP、国有企业:户数等等。

spss-210

在数据窗口中,依次点击“分析/分类/K-平均值聚类”。

spss-211

在弹出的“K-平均值聚类分析”窗口中,将变量x1-x20移到右侧的“变量”框;将变量地区移到右侧的“标注个案”框;在聚类数中填入3(K-Means聚类需要我们指定聚类的数目,但聚类数目并没有明确的判断标准,需要我们根据对聚类问题的了解程度来判断,或者可以分别聚成2,3,4,5,6,...类,然后比较看聚成几类时更符合实际情况。)

spss-212

在“K-平均值聚类分析”窗口,点击迭代按钮;

在弹出的“K-平均值聚类分析:迭代”窗口,将最大迭代数修改为50(迭代数太低可能导致聚类不收敛);点击继续返回。

spss-213

在“K-平均值聚类分析”窗口,点击保存按钮;

在弹出的“K-平均值聚类分析:保存”窗口,勾选“聚类成员”;点击继续返回。

spss-214

在“K-平均值聚类分析”窗口,设置好参数后,点击确定按钮进行运算。

spss-215

运算完成后,输出窗口将给出相应的结果,其中大部分结果我们都不需要关心。每个聚类中的个案数量表给出了聚成3个类别后每个类别中的样本数,分别为1、6和24。

spss-216

输出窗口没有给出各个类别的具体信息,我们返回数据窗口,在数据的最后一列新增了QCL_1变量,该变量给出了每个样本被划分到的具体类别。

spss-217

3 系统聚类方法

系统聚类是另一种常用的聚类方法,其不用我们指定聚类的数目,而是从按照最近距离原则对样本不断聚类,直到将所有样本聚成1个大类为止。

系统聚类方法不仅可以针对样本进行聚类,而且可以对变量进行聚类!

3.1 样本聚类

在数据窗口中,依次点击“分析/分类/系统聚类”。

spss-218

在弹出的“系统聚类分析”窗口,将变量x1-x20移到右侧的变量框;将变量地区移到右侧的标注个案框;聚类区块下选择个案(即针对样本进行聚类);输出区块下方勾选Statistics和图选项。

spss-219

在“系统聚类分析”窗口,点击图按钮;

在弹出的“系统聚类分析:图”窗口,勾选谱系图选项;其他保持默认,点击继续返回。

spss-220

在“系统聚类分析”窗口,设置好参数后,点击确定进行运算。

spss-221

运算完成后,输出窗口将给出相应的结果。谱系图中给出了31个地区的分类图,其中聚类的类别需要我们来指定,假如我们根据距离20来分类,那么从距离20处做一条垂线,该垂线与谱系图中的横线有两个交点(不包含图的外框线),表明可以聚成2个类别,第2个交点下方对应上海,而第1个交点下方连接了其余所有省市,因而上海是一个类别,其余地区为另一个类别。如果以距离5进行划分,那么可以聚成4个类别。

具体聚成几类合适,需要我们根据实际情况进行判别!

spss-222

3.2 变量聚类

除了31个地区之间可能存在相似性外。宏观经济变量之间也可能存在相似性,如地区的GDP发达,那么其财政收入也可能更高,所以也可以对变量来进行聚类!

在数据窗口中,依次点击“分析/分类/系统聚类”,再次进入“系统聚类分析”窗口;

聚类区块下选择变量(即针对变量进行聚类);其余保持默认,点击确定进行运算。

spss-223

运算完成后,输出窗口将给出相应的结果。谱系图中给出了20个变量的分类图。

spss-224



获取案例数据,请关注微信公众号并回复:SPSS_dt14


Comments

Make a comment