我很想知道应该如何构建训练数据,以便将其扩展到不属于训练数据的示例。例如,我现在面临的问题是识别或区分从不同分布生成的时间序列的频率响应的应用。所以我构建了来自 Gaussian、Uniform、Poisson 和一种或有色噪声的示例的数量表示粉红色。白噪声示例(高斯、均匀和泊松)标记为 1,有色噪声标记为 0。使用神经网络,分类效果很好。现在我想通过检查训练后的网络是否可以将白噪声从另一个分布中分类,以及彩色噪声是否为红色来进行敏感性分析。两次测试都失败了。NN 未能对它们进行分类。但是,只要我在训练数据中包含红色和新型白噪声并在不同的轨迹(时间序列)上进行测试,NN 就可以对其进行分类。
问题:这种行为让我想知道机器学习算法是否无法区分来自不同系统的示例,尽管测试中的示例与训练中使用的示例具有相似的属性。在这种情况下,尽管白噪声看起来相似,但由于它们是从不同的分布或系统生成的,因此训练数据必须包含来自所有生成机制或系统的示例,否则在测试 ML 模型时无法识别它。这是通常的行为吗?