因子分析
公共因子:
公共因子其实就是用一个共同的因素来刻画几个高度相关的变量,这些公共因子通常是无法观测的,是某一些可以观测的变量背后的一些公共因素,故称为潜变量。
m是公共因子的个数,p是原始的变量个数,m通常小于p,这样可以达到降维的目的。它是通过一些公共因素去刻画原始变量的相关性的,跟主成分分析不一样,主成分分析的出发点在方差上面,而不是相关性上面。
特殊因子是公共因子搞不定的部分,是一些特殊的部分。系数决定了原始变量是怎么由公共因子决定的。
大多数的时候需要多个公共因子刻画,这就是正交因子模型。
减去均值是中心化过程。
我们假设公共因子矩阵的均值为0,协方差矩阵是一个单位阵,说明公共因子间具有正交性,也就是不相关,如果两个公共因子之间具有相关性,就可以把他们合并成为一个公共因子;假设特殊因子的均值为0,协方差矩阵是一个对角阵,所有特殊因子也应该是彼此独立的,也是因为这样才不会将它们合并为一个特殊因子。
就是说载荷就是协方差值。载荷矩阵刻画了公共因子到底怎么去解释原始变量的。
载荷估计方法:
主成分法:
主成分法的思想:使用特征值特征向量的思想,用谱分解的前m列代替L
上面的东西学着学着懵了,就开始换视频学习。
山东财经大学讲解
因子分析概述
- 消减变量个数会导致信息丢失和信息不完整等问题的产生,我们要在降维的同时尽可能多的保存信息。
因子分析可以解决上面的问题,它以最少的信息丢失,将原始众多变量综合成较少的几个综合指标(因子),能够起到有效降维的目的。它是主成分分析的一种扩展和延申
因子分析的特点:
- 因子个数远远少于原有变量的个数
- 因子能够反映原有变量的绝大部分信息
- 因子之间不存在线性关系
- 因子具有命名解释性
因子分析的数学模型和相关概念
这里和主成分分析的差异就体现出来了,主成分分析是把原来的多个变量合成,而这里因子分析是吧原来的变量分解成新的变量。
而每个变量的均值为0,我们就要对变量进行去中心化、标准化处理。
因子分析最终也就是要找到f1…fk
数学模型矩阵形式中的F称为公共因子,因为它出现在每个变量的线性表达式中,简称因子。因子可以理解为高维度空间中相互垂直的k个坐标轴;A称为因子载荷矩阵,aij称为因子载荷,是第i个原始变量在第j个因子上的负荷;e称为特殊因子,表示原始变量不能被因子解释的部分,其均值为0,相当于多元线性回归模型中的残差,也就是信息损失。
因子载荷:在因子不相关的前提下,因子载荷是第i个变量与第j个因子的相关系数,取值在-1到1之间。因子载荷越接近1,说明因子与变量的相关性越强;因子载荷的平方说明了因子对变量的重要性和程度,越接近于1越重要。
变量共同度:变量共同度也称为公共方差,第i个变量的共同都定义为因子负载矩阵中第i行元素的平方和,体现了因子全体对变量Xi的解释贡献程度,是评价Xi信息丢失程度的重要指标。也就是说因子全体能够保留多少数据。即
因子的方差贡献:因子方差贡献是因子载荷矩阵中第j列元素的平方和,反映了第j个因子对原有变量总方差的解释能力。该数值越高,说明相应因子的重要性越高。
因子分析的基本内容
因子分析的基本步骤:
- 因子分析的前提条件;检验是否适合做因子分析
- 因子提取;
- 使因子更具有命名可解释性;怎么做使因子有更好的实际意义
- 计算各样本的因子得分。
因子分析的前提条件
原始变量之间应存在较强的相关关系。
计算相关系数矩阵并进行统计检验。如果相关系数矩阵中的大部分相关系数小于0.3,那么这些变量不适合进行因子分析。
或者计算反映象相关矩阵:
最常用的就是Bartlett’s球度检验以及KMO检验
Bartlett’s 原假设是变量之间不相关,拒绝原假设的话就是说变量之间有较强的相关性。
如果不适合就换方法。
因子提取和因子载荷矩阵的求解
因子命名
左图的因子无法明确代表某一类点,右图因子可以明确代表某一类点的共同之处