机器算法验证 - 你应该标准化二进制变量吗？ - 吾爱随笔录

你应该标准化二进制变量吗？

机器算法验证机器学习正常化二进制数据

2022-01-20 12:11:29

我有一个具有一组特征的数据集。其中一些是二进制的激活或触发，未激活或休眠），其余为实值，例如。 $(1=$ $0=$ $4564.342$

我想将此数据提供给机器学习算法，因此我对所有实值特征进行我得到它们大约在范围和之间。现在二进制值也是得分的，因此零变为，而零变为。 $z$ $3$ $-2$ $z$ $-0.222$ $0.5555$

像这样标准化二进制变量有意义吗？

4个回答

值为 0、1 的二进制变量（通常）可以缩放为（值 - 均值）/SD，这可能是您的 z 分数。

最明显的限制是，如果你碰巧得到全零或全一，那么盲目地插入 SD 将意味着 z 分数未定义。就值而言，也有分配零的情况-均值相同为零。但是，如果变量真的是一个常数，那么许多统计数据就没有多大意义。然而，更一般地说，如果 SD 较小，则分数不稳定和/或无法很好确定的风险更大。

对您的问题给出更好答案的问题正是您正在考虑的“机器学习算法”。听起来好像它是一种将多个变量的数据组合在一起的算法，因此以相似的规模提供它们通常是有意义的。

（稍后）随着原发帖者一一添加评论，他们的问题正在变形。只要 SD 为正，我仍然认为 (value - mean) / SD 对于二进制变量是有意义的（即不是无意义的）。然而，逻辑回归后来被命名为应用程序，为此，除了将二进制变量输入为 0、1 之外，没有任何理论或实际收益（实际上也有一些简单性损失）。您的软件应该能够很好地应对那; 如果没有，请放弃该软件，转而使用可以的程序。就标题问题而言：可以，可以；应该，不。

标准化二进制变量没有任何意义。这些值是任意的；它们本身并没有任何意义。关于数值稳定性问题，选择一些值（如 0 和 1）可能是有道理的，但仅此而已。

Gelman and Hill ( http://www.stat.columbia.edu/~gelman/arm/ )的第 4.2 节给出了一个很好的例子，它可以通过稍微不同的方式进行标准化。这主要是在对系数的解释感兴趣的时候，也许是在没有很多预测变量的时候。

在那里，他们标准化一个二进制变量（0 和 1 的比例相等）

\frac{x - μ_{x}}{2 σ_{x}},

$\frac{x-\mu_x}{2\sigma_x},$ 而不是正常的

σ

$\sigma$ . 然后这些标准化系数取值

\pm 0.5

$\pm 0.5$ 然后系数反映了之间的比较

x = 0

$x=0$ 和

x = 1

$x=1$ 直接地。如果按比例缩放

σ

$\sigma$ 相反，系数将对应于可能值之间差异的一半

x

$x$ .

您要标准化什么，二进制随机变量或比例？

标准化二进制随机变量是没有意义的。随机变量是为事件分配真实值的函数 $Y:S\rightarrow \mathbb{R}$ . 在这种情况下，0 表示失败，1 表示成功，即 $Y\in \lbrace 0,1\rbrace$ .

在比例的情况下，这不是一个二元随机变量，这是一个连续变量 $X\in[0,1]$ , $x\in \mathbb{R}^+$ .

其它你可能感兴趣的问题

上一篇在 R 中使用 anova() 函数比较两个模型下一篇交叉验证技术纲要