我是统计学的新手,我有数学背景。在统计学中,特别是在线性回归和主成分分析(PCA)中,到目前为止我所理解的是,主要思想是尝试尽可能多地捕捉数据中存在的可变性。在线性回归中,在计算度量时,我们正在检查模型捕获的可变性比例,在 PCA 中,我们正在形成一个新的基础,我们的数据沿着该基础具有最大可能的可变性。这个逻辑背后有什么重要的结果吗?我的意思是为什么我们必须追求可变性?对此问题的任何帮助将不胜感激。
为什么我们试图捕捉可变性?
统计是数学(世界模型)和我们对现实的感知之间的接口。我怀疑您要寻找的不是证据,而是对假设的理解。
数学证明是一个有效的形式逻辑系统,因为它是自包含的(在我作为化学家的背景下,这将被称为糖尿病患者)。所有的证明都建立在假设之上,不完备性定理表明一个系统不能证明它自己的一致性,也不能证明每一个陈述都是真的。
数据是关于世界的感知信息(即使技术已经捕获了它)。基础数据生成过程繁多且复杂,现实世界中没有任何物理系统接近糖尿病,允许外部影响扰乱正在研究的系统。量子理论告诉我们,我们永远无法完美地了解系统的每一个物理细节。
等式两边都有不确定性。
stats 试图回答的问题是数据可以告诉我们关于我们拥有的模型的什么,反之亦然,我们的模型可以告诉我们关于我们的数据的什么。两者不匹配,所以我们感兴趣的是它们不匹配的程度,即我们的数据在模型约束之外有多少变化。
这个网站上流行的说法是所有模型都是错误的,但有些是有用的。测量解释的方差允许我们评估这种有用性的一个方面,但它远非唯一。采用的度量标准应该适合所提出的问题。
所以评估方差的一些基本假设(我相信它是不完整的,所以请随时发表评论)
- 该模型并不完美,但可以解释最大比例的观察到的现象
- 数据不是纯粹的,它包含与模型无关的噪声和偏差
- 我们需要一个模型来解释尽可能多的数据生成过程
- 我们需要一个能够忽略噪音的模型
- 被调查系统外部的过程的影响可以忽略不计。
存在用于评估这些假设的有效性的工具,这就是为什么统计数据如此复杂,但可以揭示这么多。
了解统计的目的很重要(数学家和科学家通常都误解了这一点)。统计的重点不是证据或真理,而是评估风险。
在许多情况下,我们使用回归的原因是为了解释可变性。从这个意义上说,解释了多少可变性是成功的关键衡量标准之一。
举个例子可能会更清楚。我最近参与了一个项目,我们创建了一个回归模型来解释员工绩效。我们这样做是因为我们的利益相关者(高级管理人员)想知道为什么有些员工表现良好,而另一些则不然。也就是说,为什么我们会看到员工绩效的差异?
用这种方式表达应该清楚的是,我们模型的关键性能指标是它正确预期的可变性。
这是我的几分钱..
自变量和因变量的协同运动是这里的关键。假设我们想了解身高如何随年龄变化,并且我们有 100 人的数据。假设我们知道我们的自变量(身高)在 100 次观察中变化很大,但我们想知道其中有多少来自身高和年龄的共同变化。因此,我们拟合了一个模型,并估计有多少高度的变化可以从年龄的共同运动中得到解释。
如果在我们的数据中,每个人的年龄都相同,模型将无法解释任何身高的方差,我们需要找到一些东西来解释自变量的运动(方差)。解释自变量的运动(方差)是所有预测模型的一个很好的起点。
在 PCA 中,目标是旋转数据以获得最清晰的视角的最佳轴。使用方差来改变基础只是了解数据如何分散在超平面上的一种方式。