我是否通过假设生日是月中来引入偏见?

机器算法验证 回归 造型 偏见 生物统计学
2022-04-08 00:04:49

我有一个数据集,其中包含对一组患者的二分类疾病测量以及一些连续的人体测量测量,包括他们的出生月份和年份以及数据收集的确切日期。

为了减少统计分析中的噪音,我想用更准确的年龄变量替换默认年龄变量,因为提供的年龄变量向下舍入到最接近的年份。由于我们只有最近一个月的出生日期(由于数据敏感性),我假设患者在月中出生(16 日为 31 天月,15.5 日为 30 天月等。 .) 然后计算他们假定的出生日期和他们的“数据收集”日期之间的差异,给我一个以天为单位的大致年龄,精确到最接近的半个月。

一位同事告诉我,我在派生的年龄变量中引入了偏见,他们试图向我解释原因,但我根本无法理解他们的解释。他们还告诉我,我所做的并不比简单地计算月数更准确(即将数据收集日期四舍五入到最接近的月份,然后找到月数的差异),但通过使用确切的收集日期,我肯定是否包含更多信息?

我的问题是:

  1. 我的派生年龄变量是否有偏差?如果是这样,为什么?
  2. 以天为单位的推算年龄是否比以整月为单位计算年龄更准确?

如果这对您来说似乎非常明显,我深表歉意,我感谢您提供的任何帮助!谢谢你。

2个回答

以天为单位的推算年龄是否比以整月为单位计算年龄更准确?

明显不是。你不能使测量比实际测量的更精确。想象一下,除了假设月中,您还假设患者在 12:30、30 秒、30 毫秒等时间出生——这会让您的测量变得超级精确吗?对聚合数据进行去聚合是不可能的。请注意,从长远来看,您的程序会产生与为每位患者选择统一随机日期相同的结果——这样的程序会使测量更加准确吗?

我只是说显而易见的,并说我同意你的观点,我无法在没有看到的情况下评估你同事的解释。对于(1),我什至无法判断偏差应该在哪个方向。人们是否更有可能在月初或月底出生?从来没听说过。对于 (2),很明显,使用您的方法会比计算整月计算更准确一些。准确性的提高可能很小,以至于没有什么区别,但是您的方法肯定不会受到伤害。