像 Kaggle 这样的机器学习竞赛通常以人类可以理解的方式布置机器学习任务。例如,他们可能会告诉您输入(特征)的含义。但是,如果机器学习竞赛不想公开其输入数据的含义怎么办?我能想到的一种方法是将(随机)旋转矩阵应用于特征,这样每个结果特征都没有明显的意义。
输入空间上的旋转不应该改变模型将正负分开的能力(以二元分类为例)——毕竟相同的超计划(当应用相同的旋转时)可用于分离示例. 如果参赛者关心每个特征的分布(即在所有示例中查看单个特征的值时),旋转可能会改变它们。然而,旋转是 PCA 不变的,所以如果参赛者决定使用 PCA 版的输入,那么旋转不会改变那里的任何东西。
参赛者对(原始,即非 PCA-ed)输入特征的统计分析有多少回复?在这样的比赛中,是否有任何(其他)事情我应该知道,轮换可能会改变参赛者?