“零均值向量”是什么意思

数据挖掘 机器学习 熊猫
2022-02-18 15:04:55

我正在尝试重现论文中设计的算法。一切都很顺利,除了一件事:

它说we considered the lengths zero-meaned accelerometer vectors and created a feature for the mean and standard deviation of this value.,我不明白它是什么zero-meaned向量?

示例数据集:

-0.6946377 12.680544 0.50395286 5.012288 11.264028 0.95342433 4.903325 10.882658 -0.08172209 -0.61291564 18.496431 3.0237172 -1.1849703 12.108489 7.205164 1.3756552 -2.4925237 -6.510526 -0.61291564 10.56939 5.706926 -0.50395286 13.947236 7.0553403

有谁能够帮助我?

我只找到了这些信息https://www.quora.com/What-does-it-mean-when-a-vector-is-zero-mean但我不确定。

谢谢你。

2个回答

“零均值”表示向量已被转换,使其均值为 0。

通常,您可以通过从该列中减去每列的平均值来做到这一点。(这是出于尺寸和算法的原因;您不想从身高中减去一个人的体重。)

听起来他们实际上是在谈论均值 - 即(0.6946377,12.680544,0.50395286)将转换为(4.857924,8.5172577,3.65933344,4.1632863,7.40047),其中前三个是原始特征减去行均值,第四个是行均值,第五个是原始特征的标准差。

如果这三个具有相同的单位,这将是有意义的(如果它们都是相同比例的加速度,那么这是可行的),因此您需要单独测量它被加速的程度以及它被加速的程度特定的方向。

均值居中是在多元方法中为下游分析预处理数据的许多相关技术之一。

一开始可能听起来很奇怪,但这正是它所说的:向量的平均值为零。在伪代码中,(sum(vector) / len(vector)) == 0.

在多变量数据中,这通常应用于数据集中的每一列,因此可以更轻松地将每一列与相似数据范围内的另一列进行比较。在均值居中之后,每一行只包括它与原始数据中该变量的平均样本的不同之处。通常,样本也会被缩放以具有单位方差,从而使您可以更轻松地比较具有不同范围的连续变量的数据。

例如,如果您有一个带有变量的患者数据集height, weight, age, household_income,尽管每个变量都是连续值,但这些变量中的每一个都将在不同的范围内。身高可能在 60 到 75 英寸之间,体重在 100 到 300 磅之间,依此类推。

为什么要做这一切?去除均值和标准化方差将有助于下游方法不“学习”数据的均值和方差,从而更容易找到变量之间的关系。许多人假设您的数据以某种方式居中/缩放/规范化,如果您不这样做,则会表现不佳。