我有一个数据集,其中包含对一组患者的二分类疾病测量以及一些连续的人体测量测量,包括他们的出生月份和年份以及数据收集的确切日期。
为了减少统计分析中的噪音,我想用更准确的年龄变量替换默认年龄变量,因为提供的年龄变量向下舍入到最接近的年份。由于我们只有最近一个月的出生日期(由于数据敏感性),我假设患者在月中出生(16 日为 31 天月,15.5 日为 30 天月等。 .) 然后计算他们假定的出生日期和他们的“数据收集”日期之间的差异,给我一个以天为单位的大致年龄,精确到最接近的半个月。
一位同事告诉我,我在派生的年龄变量中引入了偏见,他们试图向我解释原因,但我根本无法理解他们的解释。他们还告诉我,我所做的并不比简单地计算月数更准确(即将数据收集日期四舍五入到最接近的月份,然后找到月数的差异),但通过使用确切的收集日期,我肯定是否包含更多信息?
我的问题是:
- 我的派生年龄变量是否有偏差?如果是这样,为什么?
- 以天为单位的推算年龄是否比以整月为单位计算年龄更准确?
如果这对您来说似乎非常明显,我深表歉意,我感谢您提供的任何帮助!谢谢你。