二分变量的影响是什么?

机器算法验证 回归 数据转换 二进制数据
2022-02-10 09:06:04
  • 在对变量进行二分法时,过程中会丢失哪些信息?
  • 二分法对分析有何帮助?
3个回答

丢失了什么信息:这取决于变量。通常,通过二分法,您是在断言一个变量和另一个变量之间存在直线效应。例如,考虑在一项癌症研究中对污染物暴露的连续测量。如果您将其分为“高”和“低”,则您断言这是唯一重要的两个值。有癌症的风险高,有一个低。但是,如果风险在一段时间内稳步上升,然后趋于平缓,然后再次上升,最终达到高值怎么办?所有这些都丢失了。

你得到什么:它更容易。二分变量通常更容易在统计上处理。这样做是有理由的 - 如果一个连续变量无论如何都属于两个明确的分组,但我倾向于避免二分法,除非它首先是变量的自然形式。如果您的领域无论如何都要对事物进行二分法以具有变量的二分形式,这通常也很有用。例如,许多人认为 CD4 细胞计数低于 400 是 HIV 的关键阈值。因此,我通常会为高于/低于 400 设置一个 0/​​1 变量,尽管我也会保留连续的 CD4 计数变量。这有助于使您的学习与他人保持一致。

我会稍微不同意彼得的观点。虽然将连续变量划分为类别通常比粗略的二分法更明智,但我更反对分位数分类。这样的分类很难给出有意义的解释。我认为您的第一步应该是查看是否存在可以使用的生物学或临床上得到良好支持的分类,并且只有在这些选项用尽后,您才应该使用分位数。

二分法为数据分析增添了神奇的思维。这很少是一个好主意。

这是Royston、Altman 和 Sauerbrei撰写的一篇文章,介绍了为什么这是一个坏主意的一些原因。

我自己的想法:如果你对一个因变量进行二分法,比如说,出生体重为 2.5 公斤(一直这样做),那么你将出生在 2.49 公斤的婴儿与出生在 1.5 公斤的婴儿和出生在 2.51 公斤的婴儿一样对待公斤就像那些3.5公斤的人一样。这根本不符合逻辑。

更好的选择通常是分位数回归。我最近为 NESUG 写了这篇文章。那张纸在这里

上述的一个例外是当类别具有实质性动机时;例如,如果您正在研究驾驶行为,那么根据法定驾驶年龄进行分类是明智的。

我喜欢并支持@Epigrad 和@Peter 的答案。我只是想补充一点,将区间变量合并为二进制变量(可能)使度量变量只是序数变量。对于二元变量,计算均值或方差是不合适的(尽管有些人这样做),而且,正如我在其他地方所指出的,一些多元分析在理论上或逻辑上变得不适用。例如,我认为对二元变量使用质心/Ward 层次聚类或因子分析是不正确的。

调查的客户经常迫使我们在输出时对变量进行二分法,因为根据少数类而不是一个连续特征来思考更简单,信息似乎不那么模糊并且(错误地)更庞大。

但是,在某些情况下,可能需要进行二分法。例如,当存在强双峰或分析(例如 MAMBAC 或其他)显示存在 2 个潜在类别时。