我有一个分布在两个文件中的训练数据集。
文件 1:这包含每个 X1 的实际分类。X1 在此文件中是唯一的。X1 与X2 是一一对应的关系,即X2 也是唯一的。Y 是二进制的。
| X1 | X2 | Y |
| 1 | 4 | 0 |
| 3 | 5 | 1 |
...
| 8 | 9 | 1 |
文件 2:这包含实验的真实“观察结果”。X1 可以出现多次。
| X1 | X3 | X4 |
| 3 | 4 | 5 |
| 3 | 1 | 2 |
...
| 1 | 4 | 8 |
在这里,我可以将两个表组合成如下结构,并将它们用作观察结果:
| X1 | X2 | X3 | X4 | Y |
| 3 | 5 | 4 | 5 | 1 |
| 3 | 5 | 1 | 2 | 1 |
...
| 1 | 4 | 4 | 8 | 0 |
对于测试数据,我有类似的结构,只是文件 1 中缺少 Y 列。
我在这里有多个担忧:
- X1 和 X2 在数据中具有一对一的依赖关系,即 X1 = f(X2) 和 X2 = f(X1)
- Y = f'(X1) 或 f'(X2)
- X1、X2 和 Y 的频率分布在新加入的数据集中发生了巨大变化。
问题:
- 这种数据转换是否会带来任何见解?
- 回归和集成学习技术是否能够捕捉这些内部关系?