公共因子:

公共因子

公共因子其实就是用一个共同的因素来刻画几个高度相关的变量,这些公共因子通常是无法观测的,是某一些可以观测的变量背后的一些公共因素,故称为潜变量。

因子分析目的m是公共因子的个数,p是原始的变量个数,m通常小于p,这样可以达到降维的目的。它是通过一些公共因素去刻画原始变量的相关性的,跟主成分分析不一样,主成分分析的出发点在方差上面,而不是相关性上面。

一些概念

特殊因子是公共因子搞不定的部分,是一些特殊的部分。系数决定了原始变量是怎么由公共因子决定的。

大多数的时候需要多个公共因子刻画,这就是正交因子模型。

正交因子模型

减去均值是中心化过程。

我们假设公共因子矩阵的均值为0,协方差矩阵是一个单位阵,说明公共因子间具有正交性,也就是不相关,如果两个公共因子之间具有相关性,就可以把他们合并成为一个公共因子;假设特殊因子的均值为0,协方差矩阵是一个对角阵,所有特殊因子也应该是彼此独立的,也是因为这样才不会将它们合并为一个特殊因子。

假设 载荷矩阵的理解

就是说载荷就是协方差值。载荷矩阵刻画了公共因子到底怎么去解释原始变量的。

协方差矩阵的具体分解

载荷估计方法:

主成分法:

载荷矩阵估计

主成分法的思想:使用特征值特征向量的思想,用谱分解的前m列代替L

说明 主成分法

上面的东西学着学着懵了,就开始换视频学习。

山东财经大学讲解

因子分析概述

  • 消减变量个数会导致信息丢失和信息不完整等问题的产生,我们要在降维的同时尽可能多的保存信息。

因子分析可以解决上面的问题,它以最少的信息丢失,将原始众多变量综合成较少的几个综合指标(因子),能够起到有效降维的目的。它是主成分分析的一种扩展和延申

因子分析的特点:

  • 因子个数远远少于原有变量的个数
  • 因子能够反映原有变量的绝大部分信息
  • 因子之间不存在线性关系
  • 因子具有命名解释性

因子分析的数学模型和相关概念

模型
  • 这里和主成分分析的差异就体现出来了,主成分分析是把原来的多个变量合成,而这里因子分析是吧原来的变量分解成新的变量。

  • 而每个变量的均值为0,我们就要对变量进行去中心化、标准化处理

  • 因子分析最终也就是要找到f1…fk

  • 数学模型矩阵形式中的F称为公共因子,因为它出现在每个变量的线性表达式中,简称因子。因子可以理解为高维度空间中相互垂直的k个坐标轴;A称为因子载荷矩阵,aij称为因子载荷,是第i个原始变量在第j个因子上的负荷;e称为特殊因子,表示原始变量不能被因子解释的部分,其均值为0,相当于多元线性回归模型中的残差,也就是信息损失

  • 因子载荷:在因子不相关的前提下,因子载荷是第i个变量与第j个因子的相关系数,取值在-1到1之间。因子载荷越接近1,说明因子与变量的相关性越强;因子载荷的平方说明了因子对变量的重要性和程度,越接近于1越重要。

  • 变量共同度:变量共同度也称为公共方差,第i个变量的共同都定义为因子负载矩阵中第i行元素的平方和,体现了因子全体对变量Xi的解释贡献程度,是评价Xi信息丢失程度的重要指标。也就是说因子全体能够保留多少数据。即变量共同度

  • 因子的方差贡献:因子方差贡献是因子载荷矩阵中第j列元素的平方和,反映了第j个因子对原有变量总方差的解释能力。该数值越高,说明相应因子的重要性越高。因子方差贡献度

因子分析的基本内容

因子分析的基本步骤:

  • 因子分析的前提条件;检验是否适合做因子分析
  • 因子提取;
  • 使因子更具有命名可解释性;怎么做使因子有更好的实际意义
  • 计算各样本的因子得分。

因子分析的前提条件

原始变量之间应存在较强的相关关系

计算相关系数矩阵并进行统计检验。如果相关系数矩阵中的大部分相关系数小于0.3,那么这些变量不适合进行因子分析。

或者计算反映象相关矩阵:反映象相关矩阵

最常用的就是Bartlett’s球度检验以及KMO检验

KMO和Bartlett's

Bartlett’s 原假设是变量之间不相关,拒绝原假设的话就是说变量之间有较强的相关性。

如果不适合就换方法。

因子提取和因子载荷矩阵的求解

因子提取和因子载荷矩阵的求解 主成分的要求 主成分分析 载荷矩阵计算 选取因子 确定因子个数 累计方差贡献率求法

因子命名

因子命名 命名解释

左图的因子无法明确代表某一类点,右图因子可以明确代表某一类点的共同之处

计算因子得分