我有一个具有一组特征的数据集。其中一些是二进制的激活或触发,未激活或休眠),其余为实值,例如。
我想将此数据提供给机器学习算法,因此我对所有实值特征进行我得到它们大约在范围和之间。现在二进制值也是得分的,因此零变为 ,而零变为。
像这样标准化二进制变量有意义吗?
我有一个具有一组特征的数据集。其中一些是二进制的激活或触发,未激活或休眠),其余为实值,例如。
我想将此数据提供给机器学习算法,因此我对所有实值特征进行我得到它们大约在范围和之间。现在二进制值也是得分的,因此零变为 ,而零变为。
像这样标准化二进制变量有意义吗?
值为 0、1 的二进制变量(通常)可以缩放为(值 - 均值)/SD,这可能是您的 z 分数。
最明显的限制是,如果你碰巧得到全零或全一,那么盲目地插入 SD 将意味着 z 分数未定义。就值而言,也有分配零的情况-均值相同为零。但是,如果变量真的是一个常数,那么许多统计数据就没有多大意义。然而,更一般地说,如果 SD 较小,则分数不稳定和/或无法很好确定的风险更大。
对您的问题给出更好答案的问题正是您正在考虑的“机器学习算法”。听起来好像它是一种将多个变量的数据组合在一起的算法,因此以相似的规模提供它们通常是有意义的。
(稍后)随着原发帖者一一添加评论,他们的问题正在变形。只要 SD 为正,我仍然认为 (value - mean) / SD 对于二进制变量是有意义的(即不是无意义的)。然而,逻辑回归后来被命名为应用程序,为此,除了将二进制变量输入为 0、1 之外,没有任何理论或实际收益(实际上也有一些简单性损失)。您的软件应该能够很好地应对那; 如果没有,请放弃该软件,转而使用可以的程序。就标题问题而言:可以,可以;应该,不。
标准化二进制变量没有任何意义。这些值是任意的;它们本身并没有任何意义。关于数值稳定性问题,选择一些值(如 0 和 1)可能是有道理的,但仅此而已。
Gelman and Hill ( http://www.stat.columbia.edu/~gelman/arm/ )的第 4.2 节给出了一个很好的例子,它可以通过稍微不同的方式进行标准化。这主要是在对系数的解释感兴趣的时候,也许是在没有很多预测变量的时候。
在那里,他们标准化一个二进制变量(0 和 1 的比例相等)
您要标准化什么,二进制随机变量或比例?
标准化二进制随机变量是没有意义的。随机变量是为事件分配真实值的函数. 在这种情况下,0 表示失败,1 表示成功,即.
在比例的情况下,这不是一个二元随机变量,这是一个连续变量,.