我有一个模型可以预测马的寿命。该数据集包含从 1980 年到 2019 年的样本,其中有一个名为birth_date的特征,标有每匹马的寿命年数。问题是知道一匹马的寿命通常在 20 到 30 年之间,如果我们查看 1980 年到 1990 年的马匹及其寿命的完整列表,但从 2000 年到 2019 年,我们只看到在其中出生和死亡的马的样本这个时间跨度而不是当前生活的时间跨度,因此birth_date是一个有偏见的特征。
有没有办法使用birth_date 功能而不必担心有偏差的数据,或者有什么技术可以最大限度地减少他对最终预测的影响?