聚类分析

Reads: 5269 Edit

1 功能描述

聚类是常见的多元统计分析模型，现实中聚类的问题也很常见，如我们常说物以类聚，人以群分。我们通常会对人的性格进行分类，会对物种进行分类等等。

2 K-Means聚类方法

我们这里将采用“地区经济社会发展.sav”数据文件，根据我国31个省市经济、社会、环境状况来对其进行分类。

K-Means聚类是常用的聚类方法，根据样本到各类别中心距离的远近来划分类别。

双击打开地区经济社会发展.sav数据文件，样本为我国31个省市，变量x1-x20是各地区经济社会发展状况。

点击左下角的变量视图，切换到变量视图。可以看到x1-x20的具体描述，分别为人均GDP、国有企业：户数等等。

在数据窗口中，依次点击“分析/分类/K-平均值聚类”。

在弹出的“K-平均值聚类分析”窗口中，将变量x1-x20移到右侧的“变量”框；将变量地区移到右侧的“标注个案”框；在聚类数中填入3（K-Means聚类需要我们指定聚类的数目，但聚类数目并没有明确的判断标准，需要我们根据对聚类问题的了解程度来判断，或者可以分别聚成2，3，4，5，6，...类，然后比较看聚成几类时更符合实际情况。）

在“K-平均值聚类分析”窗口，点击迭代按钮；

在弹出的“K-平均值聚类分析：迭代”窗口，将最大迭代数修改为50（迭代数太低可能导致聚类不收敛）；点击继续返回。

在“K-平均值聚类分析”窗口，点击保存按钮；

在弹出的“K-平均值聚类分析：保存”窗口，勾选“聚类成员”；点击继续返回。

在“K-平均值聚类分析”窗口，设置好参数后，点击确定按钮进行运算。

运算完成后，输出窗口将给出相应的结果，其中大部分结果我们都不需要关心。每个聚类中的个案数量表给出了聚成3个类别后每个类别中的样本数，分别为1、6和24。

输出窗口没有给出各个类别的具体信息，我们返回数据窗口，在数据的最后一列新增了QCL_1变量，该变量给出了每个样本被划分到的具体类别。

3 系统聚类方法

系统聚类是另一种常用的聚类方法，其不用我们指定聚类的数目，而是从按照最近距离原则对样本不断聚类，直到将所有样本聚成1个大类为止。

系统聚类方法不仅可以针对样本进行聚类，而且可以对变量进行聚类！

3.1 样本聚类

在数据窗口中，依次点击“分析/分类/系统聚类”。

在弹出的“系统聚类分析”窗口，将变量x1-x20移到右侧的变量框；将变量地区移到右侧的标注个案框；聚类区块下选择个案（即针对样本进行聚类）；输出区块下方勾选Statistics和图选项。

在“系统聚类分析”窗口，点击图按钮；

在弹出的“系统聚类分析：图”窗口，勾选谱系图选项；其他保持默认，点击继续返回。

在“系统聚类分析”窗口，设置好参数后，点击确定进行运算。

运算完成后，输出窗口将给出相应的结果。谱系图中给出了31个地区的分类图，其中聚类的类别需要我们来指定，假如我们根据距离20来分类，那么从距离20处做一条垂线，该垂线与谱系图中的横线有两个交点（不包含图的外框线），表明可以聚成2个类别，第2个交点下方对应上海，而第1个交点下方连接了其余所有省市，因而上海是一个类别，其余地区为另一个类别。如果以距离5进行划分，那么可以聚成4个类别。

具体聚成几类合适，需要我们根据实际情况进行判别！

3.2 变量聚类

除了31个地区之间可能存在相似性外。宏观经济变量之间也可能存在相似性，如地区的GDP发达，那么其财政收入也可能更高，所以也可以对变量来进行聚类！

在数据窗口中，依次点击“分析/分类/系统聚类”，再次进入“系统聚类分析”窗口；

聚类区块下选择变量（即针对变量进行聚类）；其余保持默认，点击确定进行运算。

运算完成后，输出窗口将给出相应的结果。谱系图中给出了20个变量的分类图。

获取案例数据，请关注微信公众号并回复:`SPSS_dt14`

聚类分析

1 功能描述

2 K-Means聚类方法