1 功能说明
主成分分析是常见的降维方法,通过坐标轴转换,将原来用n维坐标表示的样本用m维(m小于n)坐标来表示,新的m维坐标包含了原样本中大部分的信息。即用较少的信息损失来换取样本维度的大幅降低。
2 主成分分析——降维
这里采用car_sales.sav数据,将汽车的多维度指标进行压缩!
双击打开car_sales.sav数据文件,其中engine_s、horsepow、wheelbas、width、length、curb_wgt、fuel_cap、mpg这八个指标分别反应了汽车的发动机尺寸、马力、轴距、宽、长、整备质量、油箱容量、油耗等信息。这8个指标中之间可能存在一定的相关性,我们可以采用主成分分析将其进行降维。
点击左下角的变量视图,切换到变量视图。其中Z开头的变量是对原始变量进行标准化处理后的变量!
在数据窗口中,依次点击“分析/降维/因子分析”(注意:主成分分析包含在因子分析中)。
在弹出的“因子分析”窗口,将engine_s、horsepow、wheelbas、width、length、curb_wgt、fuel_cap、mpg八个变量移到右侧的变量框;
在“因子分析”窗口,点击抽取按钮;
在弹出的“因子分析:抽取”窗口,注意方法应当选择“主成分”;由于我们使用了原始数据,所以分析区块下方应当选择“相关性矩阵”,这样SPSS将自动对数据进行标准化处理!。点击继续返回!
在“因子分析”窗口,点击因子得分按钮;
在弹出的“因子分析:因子得分”窗口,勾选保存为变量,方法选择回归;同时勾选显示因子得分系数矩阵。点击继续返回!
在“因子分析”窗口,设置好参数后,点击确定进行运算!
运算完成后,输出窗口将给出相应的结果。
总方差解释表中,给出了提取出的8个主成分信息(8个输入变量对应8个主成分),其中第一个主成分包含原始样本68.456%的信息,第二个主成分包含原始样本13,601%的信息。由于前两个主成分累计包含了原始样本80%以上的信息。所以可以用这2个主成分来反映原始变量,即将原来的8个维度压缩到2个维度。
主成分矩阵给出了提取的两个主成分和原始8个变量之间的相关性。如Engine size和第一个主成分相关性为0.864,和第二个主成分相关性为-0.351。
成分得分系数矩阵表可以用于计算主成分,公式如下:
第一个主成分=0.158zengine_s+0.131zhorsepow+0.14zwheelbas+0.155zwidth+0.14lzength+0.169zcurb_wgt+0.16zfuel_cap-0.154zmpg
第二个主成分=-0.323zengine_s-0.494zhorsepow+0.522zwheelbas+0.15zwidth+0.461zlength-0.051zcurb_wgt+0.006zfuel_cap+0.246zmpg
注意:在计算主成分时,不能使用原始变量,需要使用标准化后的变量。
我们接着采用成分得分系数矩阵表中的结果来计算第一个主成分。
在数据窗口中,依次点击“转换/计算变量”。
在弹出的“计算变量”窗口,目标变量输入新变量名:fca1;
数字表达式输入0.158*zengine_s+0.131*zhorsepow+0.14*zwheelbas+0.155*zwidth+0.14*zlength+0.169*zcurb_wgt+0.16*zfuel_cap-0.154*zmpg
点击确定进行计算。
注意:在计算主成分时,不能使用原始变量,需要使用标准化后的变量。
回到数据试图,其中FAC1_1和FAC2_1是SPSS自动计算的两个主成分,fca1是我们刚才计算的主成分,可以发现我们计算的第一个主成分和SPSS自动计算的第一个主成分基本相等。由于我们计算主成分时的因子载荷(0.158,0.138,...)是保留3位小数,而SPSS计算时因子载荷的精度要更高,所以结果略有差异。
3 主成分分析——综合评价
这里采用地区经济社会发展.sav的数据,利用主成分分析将中国各省市的经济社会数据进行压缩,得到各省市综合评价指数!
双击打开地区经济社会发展.sav数据文件,变量X1-X20是我国各省市的经济社会发展指标!
在数据窗口中,依次点击“分析/降维/因子分析”。
在弹出的“因子分析”窗口,将X1、X3、X6、X8、X11、X13、X14、X15、X20这几个变量移到右侧的变量框。
注意:我们这里仅仅选择了几个正向指标来对各地区经济社会发展进行评价。由于CPI等指标不是越高越好,所以没有加入,在实际应用中,可以把负向指标进行取倒数转换成正向指标在放入评价指标体系!
在“因子分析”窗口,点击抽取按钮;
在弹出的“因子分析:抽取”窗口,注意方法应当选择主成分。点击继续返回!
在“因子分析”窗口,点击因子得分按钮;
在弹出的“因子分析:因子得分”窗口,勾选保存为变量。点击继续返回!
在“因子分析”窗口,设置好参数后,点击确定进行运算。
运算完成后,输出窗口将给出相应的结果。
总方差解释表中给出了提取的9个主成分信息,其中前三个主成分分别包含了原始样本的48.373%、29.716%、11.387%的信息!三者累计包含了原始样本89.477%的信息,因而提取前三个主成分。
在数据视图窗口,依次点击“转换/计算变量”
在弹出的“计算变量”窗口,目标变量中输入综合评价得分变量名:score;
在数字表达式中输入:48.373/89.477*FAC1_1+29.716/89.477*FAC2_1+11.387/89.477*FAC3_1;其中FAC1_1、FAC2_1、FAC3_1是SPSS自动计算出的3个主成分。48.373/89.477、29.716/89.477、11.387/89.477是三个主成分包含信息的比重!
点击确定进行计算。
返回数据视图窗口,可以看出,score列即为我国各地区经济社会的综合评价指数!