协变量偏移检测

数据挖掘 机器学习 分类 数据集 图像分类
2021-09-18 09:10:04

是否有任何标准方法来检测训练和测试数据之间的协变量偏移?这对于验证包含数百张图像的数据库中存在协变量偏移的假设很有用。

4个回答

有诸如Kullback-Leibler 散度模型Wald-Wolfowitz 检验等方法来检测非随机性和协方差偏移。

快速分析协方差测试的一个简单测试是建立一个机器学习模型,其中模型通过输入训练数据和生产数据进行重复测试。

如果模型可以区分训练数据集和生产数据集之间的差异,那么它可能是协方差偏移的标志。

基于运动意象的脑机接口的协变量移位检测自适应学习 http://link.springer.com/article/10.1007/s00500-015-1937-5

基于 EWMA 模型的移位检测方法,用于检测非平稳环境中的协变量移位 ( http://www.sciencedirect.com/science/article/pii/S0031320314002878 )

这是您可以使用的简单程序:

  1. 学习分类器以区分训练/测试数据(使用常规 X 特征)
  2. 计算phi 相关系数以估计分类器的质量 = 训练/测试数据的可分离性
  3. 设置一个阈值(例如 0.2),高于该阈值您可以声称存在协变量偏移(并开始寻找修正)

协变量偏移问题最终导致数据集具有不同的基础数学结构。现在,流形学习估计高维数据的低维表示,从而揭示底层结构。通常,流形学习技术不是预测——因此,与标准 PCA 不同且更强大。

我使用流形学习技术(例如:IsoMap、MDS 等)来可视化(并且,如果可能的话,量化)训练和测试数据集之间的“(不)相似性”。