从连续数据到分类数据总是错误的吗?

机器算法验证 分类数据 连续数据
2022-03-27 17:14:35

当我阅读有关如何设置数据的信息时,我经常遇到的一件事是将一些连续数据转换为分类数据不是一个好主意,因为如果阈值确定不当,您很可能会得出错误的结论。

然而,我目前有一些数据(前列腺癌患者的 PSA 值),我认为普遍的共识是,如果你低于 4 岁,你可能没有,如果你高于你有风险,然后类似超过 10 和 20,你可能拥有它。类似的东西。在这种情况下,将我的连续 PSA 值分类为 0-4、4-10 和 >10 组是否仍然不正确?或者实际上可以说阈值是“确定的”。

2个回答

您的阈值是否存在明显的不连续性?

例如,假设您有两名患者 A 和 B 的值分别为 3.9 和 4.1,另外两名患者 C 和 D 的值分别为 6.7 和 6.9。A 和 B 之间患癌症的可能性差异是否比 C 和 D 之间的相应差异大得多?

如果是,那么离散化是有意义的。

如果不是,那么您的阈值在理解您的数据时可能是有意义的,但它们在统计学意义上并不是“确定的”。不要离散化。相反,请“按原样”使用您的测试分数,如果您怀疑存在某种非线性,请使用.

这是非常推荐的。

我认为标准答案总是不好,因为您在此过程中丢失了信息。很难相信在任何情况下,您都可以从获取自然区间数据并将其分类中获得任何收益。