在我所有的自学中,在计算协方差矩阵之前,我遇到了许多不同的方法来规范他们的数据。我对哪些方法是“正确的”感到困惑,或者是否只是依赖于应用程序。
对于我的特定应用程序,我有一个数据矩阵,这是一个X矩阵。(让, 和)。该矩阵来自地面上的 9 个传感器,这些传感器测量随时间变化的振动。我的任务是查看不同传感器输出相互关联的“好坏”,换句话说,研究协方差矩阵。
选项1:我知道的标准方法是减去每行的平均值从自身出发,然后计算样本协方差矩阵:因此,让无非,减去每一行的平均值。然后,协方差矩阵由下式给出. 这样,每个传感器输出的方差不变,但所有传感器输出的均值为零。
选项 2:我见过的另一种类似方式,它不是简单地停止移除平均值,而是在计算之前强制每个传感器输出的标准偏差为 1. 所以在这种情况下,我会使用我的数据矩阵,将删除每行的平均值,但随后我还将每行除以其自己的标准差,这样现在,所有行/传感器输出均为零,单位方差。然后,我们像以前一样计算协方差矩阵。当然,这里的协方差矩阵看起来会有所不同……所以这是“正确的”吗?
选项 3:虽然此选项在技术上不是关于在计算协方差矩阵之前对数据进行归一化,但此方法(Pearson 相关系数)只是通过乘积的倒数对使用 (1) 计算的协方差矩阵的每个元素进行加权它所代表的向量的标准差。在这种情况下,我的 Pearson 相关矩阵的值将介于 -1 和 1 之间。与 (2) 一样,这也具有“不关心”来自每个传感器的能量的效果。
现在,我很困惑我需要为这个应用程序使用哪种方法......我是否只是贬低我的传感器数据并在计算之前保留它们的差异,作为教科书的方法?在计算之前,我是否会贬低和标准化他们所有的差异?,就像一些机器学习课本一样?或者我是否将 Pearson 矩阵视为选项 (3),它也可以通过 sigmas 进行一种归一化?
很迷茫。:-/