我从事物理学工作。我们有很多实验运行,每次运行都会产生一个结果,y
以及一些应该预测结果的参数,x
. 随着时间的推移,我们发现越来越多的参数需要记录。所以我们的数据如下所示:
Year 1 data: (2000 runs)
parameters: x1,x2,x3 target: y
Year 2 data: (2000 runs)
parameters: x1,x2,x3,x4,x5 target: y
Year 3 data: (2000 runs)
parameters: x1,x2,x3,x4,x5,x6,x7 target: y
如何建立一个回归模型,将我们记录的额外信息纳入其中,而不丢弃它“学到”的关于旧参数的信息?
我是不是该:
- 只是将
x4
,x5
等设置为0
或-1
当我不使用它们时? - 完全忽略
x4,x5,x6,x7
,只使用x1,x2,x3
? - 添加另一个参数,即参数个数?
- 每年训练单独的模型,然后以某种方式组合它们?
- “权重”参数,以便在我将权重设置为 0 时忽略它们?
- 使用 、 和 参数制作三个不同的模型,
x1,x2,x3
然后x4,x5
以x6,x7
某种方式进行插值? - 制作一个自定义的“imputer”来猜测丢失的参数(使用可用参数)
我尝试过使用均值和中位数进行插补,但效果都不是很好,因为参数不是独立的,而是相当相关的。