年龄部分作为连续变量,部分作为分类变量

机器算法验证 r 回归 分类数据 参考
2022-03-22 08:39:51

我有 150 名 50 岁以上患者的临床信息数据集。我打算用它做一个逻辑回归。(有症状~年龄等)

从50岁到69岁连续给出年龄(50,51,52...68,69);从 70 岁开始,年龄被分类/分类 (70-74,75-79...95-99,100+)

我在 50-69 岁组中有 83 个,在 70-100+ 组中有 67 个。

如何知道进行的最佳方式:以分类或其他方式转换连续数据?

1个回答

您可以估算每个类别的平均值或中位数。这对 100 岁以上的人来说效果不佳,但我怀疑除非贵国有许多百岁老人,否则将 100 岁归为 100 不会造成太大伤害。如果你有必要的编程技能,你可以使用从 70-74、75-79 等中抽取的制服来估算每个类别,拟合模型,重复 N 次,看看它有什么不同。我不建议手动这样做。

除非别无选择,否则我不建议对本质上连续的变量进行分类。它浪费信息并导致模型不可信,因为它预测效果在整个类别中保持平坦,然后突然在类别边界处跳转到新值。

针对 OP 在评论中添加的信息,即 100+ 类别中有 7%(等于 10),最好考虑如何在那里更明智地进行估算。如果该国公布这些年龄组的详细人口统计数据,那么这将有助于了解实际分布情况,但我怀疑披露控制会限制高龄人群的详细信息。尽管年龄的上限未知,但出于实际目的,我们可以假设它是 110。如果我们假设在这部分范围内的年龄形成一个三角形分布,下限为 100,上限为 110,众数为 100,则估计平均值为 103.3,因此我们可以将其用作 100 岁以上组中年龄的估算值。