数据挖掘 - 如何在时间 t2 重新生成数据集 df，而在时间 t1 具有 df，在时间 t1 和 t2 具有横截面数据集 df'？ - 吾爱随笔录

我有一个在 2017 年和 2019 年收集的旅行调查数据集 df'。请注意，个人（这里的家庭）在 2017 年和 2019 年不一定相同，但它们的特征是。

2017 年的数据集 df'：

家庭	收入	尺寸	交货
一种	100K	2	2
乙	150K	4	0

2019 年数据集 df'：

家庭	收入	尺寸	交货
C	75K	1	1
D	100K	4	5

现在我有另一个旅行调查 df（仅在 2017 年），它与 df'有一些共同点：

2017年数据集df：

家庭	出租/拥有	车辆	交货
乙	租	福特	0
F	自己的	通用汽车	1

我想知道如何利用df'在2017年和2019年的样本之间的关系以及df和df'之间的共同特征来重新生成2019年的数据集df？

有没有什么方法或理论基础可以帮助我们做到这一点？