我有一个在 2017 年和 2019 年收集的旅行调查数据集 df'。请注意,个人(这里的家庭)在 2017 年和 2019 年不一定相同,但它们的特征是。
2017 年的数据集 df':
| 家庭 | 收入 | 尺寸 | 交货 |
|---|---|---|---|
| 一种 | 100K | 2 | 2 |
| 乙 | 150K | 4 | 0 |
2019 年数据集 df':
| 家庭 | 收入 | 尺寸 | 交货 |
|---|---|---|---|
| C | 75K | 1 | 1 |
| D | 100K | 4 | 5 |
现在我有另一个旅行调查 df(仅在 2017 年),它与 df'有一些共同点:
2017年数据集df:
| 家庭 | 出租/拥有 | 车辆 | 交货 |
|---|---|---|---|
| 乙 | 租 | 福特 | 0 |
| F | 自己的 | 通用汽车 | 1 |
我想知道如何利用df'在2017年和2019年的样本之间的关系以及df和df'之间的共同特征来重新生成2019年的数据集df?
有没有什么方法或理论基础可以帮助我们做到这一点?