预测出生年龄

数据挖掘 回归
2022-02-23 13:07:46

我有一个宠物项目来计算历史上一个重要人物的出生年份。

在此期间,我正在收集有关其他具有相似状态的人的大量数据。我有诸如受教育年限、结婚年份、生育年份、兄弟姐妹信息和每个孩子之间的年龄差、婚姻等数据……

这个人的年龄在两岁之间有争议,一岁使人很老,一岁使人年轻。我想回归人的年龄。我的第一个想法是在每个变量上绘制高斯函数,看看一个变量是否比另一个变量更有可能是异常值。

你会用什么方法来解决这个问题?

1个回答

看起来你有一个经典的贝叶斯问题。你有某种先验分布,出生年份的分布,你的先验分布是双峰的,在两年内达到峰值,你可以使用两个正态分布的卷积来模拟这个变量。然后在你输入一些数据后让它吐出一个后验分布。

我对此分析的真正问题是您的功能似乎不是特别好。确实,这些变量可能包含有关出生年份的信息,例如,在 20 世纪,初婚的平均年龄一直在稳步增加。但我怀疑信号会相当微弱。本质上,如果我告诉你我24岁结婚,26岁生第一个孩子,哥哥比我大3岁,妹妹比我小2岁,你能告诉我是哪一年吗?我是 1956 年还是 1989 年出生的?

我怀疑如果没有额外的数据,我提供的这些信息将完全没有用,主要是因为它是一个非常嘈杂的信号。该信息同样适用于 1956 年或 1989 年出生的人。它不是很有帮助。

本质上,我要说的是,当您更新先前的内容时,它不会有太大变化。(你的后验分布看起来与先验分布非常相似。)我认为与其胡扯什么是解决这个问题的正确算法,不如思考一些更好的特征。