机器算法验证 - 自举广义最小二乘 - 吾爱随笔录

场景：

考虑使用自举来估计每个线性或非线性广义最小二乘模型拟合的模型参数的分布。特别是，假设有一个协方差矩阵 $C$ 的误差，甚至可能不是对角线，因此误差可能既不是独立的也不是同分布的。

目标是对估计的模型参数的分布产生准确的估计，以支持推理或做出考虑不确定性的预测。这要么是估计协方差矩阵的“低保真”形式，要么是通过生成数据点来提供不假设正态性的经验似然计算。为简单起见，我假设协方差矩阵 $C$ 是准确知道的，而不是不完全估计的。

建议的引导方法：

每一个 $n$ 完整样本中的数据点是随机抽样的，在引导程序中以相等的概率替换。对于每个 bootstrap 样本，从协方差矩阵中删除与未选择样本的数据点对应的行和列， $C$ . 对于每对数据点 $(i,j)$ 在样本中至少包含一次，则自举样本的协方差矩阵的条目将是 $C$ ，除以数据点数的乘积的平方根 $i$ 和 $j$ 出现在引导示例中。该 bootstrap 样本的 bootstrap 样本参数估计是使用该 bootstrap 样本的协方差矩阵的广义最小二乘问题的解，如上句所述。

来自所有自举样本的参数估计被馈送到未加权（即，同等加权）样本（或其他方法）协方差估计中。为了在经验似然中使用，从每个 bootstrap 样本计算的参数估计被视为 iid（等权重）数据点，用于经验似然计算。

建议的 Bootstrap 方法的讨论：

如果 $C$ 是单位矩阵的标量倍数，即错误是独立同分布的，我相信所描述的方法是有根据的。但是，他们不是 iid。我认为不对用于生成自举数据样本的数据点选择概率进行加权，或者对跨自举样本计算的每个自举样本的参数估计进行加权是合适的，因为在每个自举的最小二乘计算中使用的协方差矩阵样本已经根据协方差矩阵的（逆）加权。具有的数据点 $1/2$ 如果在最小二乘计算中使用相等的权重（协方差）代替，另一个数据点的方差实际上相当于在 bootstrap 样本中出现的频率是两倍。所以我认为协方差矩阵中考虑了任何权重。因此，在自举样本的选择概率中使用的任何（不等）权重，或用于估计参数估计协方差计算或经验似然的权重，都将是“重复计算”。但是是否存在由数据点之间的非零协方差引起的“不公正”，因此由于这种协方差，数据点实际上是为自举样本部分采样的，即使名义上一个点在自举样本中或不？可以合理地假设，在现实世界中，任何数据点，无论是低协方差还是高协方差，以及是否与其他数据点相关，都同样可能“发生”（以完整形式出现（而非引导程序）样本）数据集。

向量数据点的泛化（多元广义最小二乘）：

一切如上，但现在是多元最小二乘，即 LHS 数据点值为 $m$ 经过 $1$ 向量。协方差矩阵 $C$ 就是现在 $m*n$ 经过 $m*n$ ，并且可能是完全通用的，除了是对称的 psd。向量数据点是在引导样本中随机选择替换的，每个向量数据点的可能性相同（向量数据点在引导样本中或不在引导样本中，而不是部分在）。用于 bootstrap 样本的协方差矩阵像以前一样进行了调整，只是它现在是基于块的，其中有一个 $m$ 经过 $m$ 每个矢量数据点的块。所以给定协方差块中的所有条目 $(i,j)$ 接收相同的调整因子，即除以向量数据点数的乘积的平方根 $i$ 和 $j$ 出现在 bootstrap 示例中其他一切都如前所述，具有相同的基本原理。

推广到除最小二乘以外：

可以使用其他一些损失函数和可能的正则化因子代替广义最小二乘，但协方差矩阵仍用于根据广义最小二乘“加权”（如本答案所示Is there a "generalized minimum norm " 等价于广义最小二乘法？ ) 即损失是 $m * n$ 原始残差，调整为（协方差的 Cholesky 因子的倒数）和原始残差的乘积，即，调整后残差的协方差是单位矩阵。

基于随机抽样调整残差的替代方法：

调整残差，如前一段所述，以便调整后的残差是 iid 随机抽样，具有相同概率的引导样本的替换残差。对 bootstrap 样本执行普通最小二乘法。我认为这可能会扭曲数据点的向量性质——我认为调整后的残差甚至不对应于特定的向量数据点，因此不能在向量的基础上为引导样本选择调整后的残差。总的来说，尽管从 iid 样本中选择的 bootstrap 样本具有明显的吸引力，但我并没有“购买”这种方法，至少在矢量数据点的情况下，这是我真正关心的唯一情况。在这种情况下，在在现实世界中，一个向量数据点要么在数据集中，要么不在数据集中；

想法？