1 功能描述
聚类是常见的多元统计分析模型,现实中聚类的问题也很常见,如我们常说物以类聚,人以群分。我们通常会对人的性格进行分类,会对物种进行分类等等。
2 K-Means聚类方法
我们这里将采用“地区经济社会发展.sav”数据文件,根据我国31个省市经济、社会、环境状况来对其进行分类。
K-Means聚类是常用的聚类方法,根据样本到各类别中心距离的远近来划分类别。
双击打开地区经济社会发展.sav数据文件,样本为我国31个省市,变量x1-x20是各地区经济社会发展状况。
点击左下角的变量视图,切换到变量视图。可以看到x1-x20的具体描述,分别为人均GDP、国有企业:户数等等。
在数据窗口中,依次点击“分析/分类/K-平均值聚类”。
在弹出的“K-平均值聚类分析”窗口中,将变量x1-x20移到右侧的“变量”框;将变量地区移到右侧的“标注个案”框;在聚类数中填入3(K-Means聚类需要我们指定聚类的数目,但聚类数目并没有明确的判断标准,需要我们根据对聚类问题的了解程度来判断,或者可以分别聚成2,3,4,5,6,...类,然后比较看聚成几类时更符合实际情况。)
在“K-平均值聚类分析”窗口,点击迭代按钮;
在弹出的“K-平均值聚类分析:迭代”窗口,将最大迭代数修改为50(迭代数太低可能导致聚类不收敛);点击继续返回。
在“K-平均值聚类分析”窗口,点击保存按钮;
在弹出的“K-平均值聚类分析:保存”窗口,勾选“聚类成员”;点击继续返回。
在“K-平均值聚类分析”窗口,设置好参数后,点击确定按钮进行运算。
运算完成后,输出窗口将给出相应的结果,其中大部分结果我们都不需要关心。每个聚类中的个案数量表给出了聚成3个类别后每个类别中的样本数,分别为1、6和24。
输出窗口没有给出各个类别的具体信息,我们返回数据窗口,在数据的最后一列新增了QCL_1变量,该变量给出了每个样本被划分到的具体类别。
3 系统聚类方法
系统聚类是另一种常用的聚类方法,其不用我们指定聚类的数目,而是从按照最近距离原则对样本不断聚类,直到将所有样本聚成1个大类为止。
系统聚类方法不仅可以针对样本进行聚类,而且可以对变量进行聚类!
3.1 样本聚类
在数据窗口中,依次点击“分析/分类/系统聚类”。
在弹出的“系统聚类分析”窗口,将变量x1-x20移到右侧的变量框;将变量地区移到右侧的标注个案框;聚类区块下选择个案(即针对样本进行聚类);输出区块下方勾选Statistics和图选项。
在“系统聚类分析”窗口,点击图按钮;
在弹出的“系统聚类分析:图”窗口,勾选谱系图选项;其他保持默认,点击继续返回。
在“系统聚类分析”窗口,设置好参数后,点击确定进行运算。
运算完成后,输出窗口将给出相应的结果。谱系图中给出了31个地区的分类图,其中聚类的类别需要我们来指定,假如我们根据距离20来分类,那么从距离20处做一条垂线,该垂线与谱系图中的横线有两个交点(不包含图的外框线),表明可以聚成2个类别,第2个交点下方对应上海,而第1个交点下方连接了其余所有省市,因而上海是一个类别,其余地区为另一个类别。如果以距离5进行划分,那么可以聚成4个类别。
具体聚成几类合适,需要我们根据实际情况进行判别!
3.2 变量聚类
除了31个地区之间可能存在相似性外。宏观经济变量之间也可能存在相似性,如地区的GDP发达,那么其财政收入也可能更高,所以也可以对变量来进行聚类!
在数据窗口中,依次点击“分析/分类/系统聚类”,再次进入“系统聚类分析”窗口;
聚类区块下选择变量(即针对变量进行聚类);其余保持默认,点击确定进行运算。
运算完成后,输出窗口将给出相应的结果。谱系图中给出了20个变量的分类图。