因子分析中的“因子”是什么?

机器算法验证 因子分析 术语 线性代数 定义
2022-03-15 13:50:51

从线性代数的角度来看,什么是因子?它是向量、矩阵、基、元组、坐标系还是其他?

2个回答

通常的因子分析模型是

Y=μ+ΦL+η,

在哪里Y代表一个集合n的观察k随机变量;即它是一个矩阵n×k尺寸。μ=1n(μ1,μ2,,μk) 也是一个n×k矩阵,每列中的常数,给出k变量。Φ是一个n×p矩阵pk因素;L是一个p×n(未知)常数矩阵(待估计);η是一个n×k误差矩阵。的行η是独立的并且独立于Φ. 行内的元素i有意思0和方差σi2. 右侧的数量是不可观察的,但(通常)数量少于nk数据值,因此(直至下面讨论的模糊程度)是可识别的。注意η不会被识别,而只是它的行差异σi2,称为“独特性”。

在因子分析的语言中,因子Φ. k它提取的原始变量p<k因素。可以说一个“因素”是一整列;即,一个集合n随机变量的实现,或者更抽象地说,随机变量本身。通常假设因素是不相关的和标准化的,即具有单位方差。

的行L称为因子载荷

请注意,此模型仅在正交变换之前是唯一的,因为

Y=μ+(ΦP)(PL)+η,
在哪里P是任意正交矩阵。

因子是一个向量。这组因素为您提供了一个坐标系,一个基础。因子载荷是在此基础上的坐标集。

假设你有一个T×n矩阵X=xti. 想象它是n维空间中的一条粒子路径,其中t是时间,并且i是维度。

因子分析所做的只是将坐标系从您当前的基础更改为其他基础,然后您的X矩阵变成了T×n矩阵A=ati. 它在时间上是相同的路径,只是坐标不同。某个时间点的实际坐标t在 PCA中被称为加载或分数,即每一行是一个特定的时间点,一个加载。

转换坐标的原因通常是方便或清晰。例如,这些将是笛卡尔系统 (x,y) 中圆周运动的坐标:

    0.8415    0.5403
    0.9093   -0.4161
    0.1411   -0.9900
   -0.7568   -0.6536
   -0.9589    0.2837
   -0.2794    0.9602
    0.6570    0.7539
    0.9894   -0.1455
    0.4121   -0.9111
   -0.5440   -0.8391

在极坐标系(角度、半径)中也是如此:

1.0000    1.0000
2.0000    1.0000
3.0000    1.0000
4.0000    1.0000
5.0000    1.0000
6.0000    1.0000
0.7168    1.0000
1.7168    1.0000
2.7168    1.0000
3.7168    1.0000

极坐标系统显然更适合这个过程,因为您可以缩小系统的维度。它本质上是沿圆周的一维运动。

因子分析通常在某种程度上是线性的,并且不会做这样很酷的事情,但仍然适用于许多流程。