旋转矩阵将如何影响机器学习竞赛中的参赛者?

数据挖掘 卡格尔
2021-10-09 02:15:31

像 Kaggle 这样的机器学习竞赛通常以人类可以理解的方式布置机器学习任务。例如,他们可能会告诉您输入(特征)的含义。但是,如果机器学习竞赛不想公开其输入数据的含义怎么办?我能想到的一种方法是将(随机)旋转矩阵应用于特征,这样每个结果特征都没有明显的意义。

输入空间上的旋转不应该改变模型将正负分开的能力(以二元分类为例)——毕竟相同的超计划(当应用相同的旋转时)可用于分离示例. 如果参赛者关心每个特征的分布(即在所有示例中查看单个特征的值时),旋转可能会改变它们。然而,旋转是 PCA 不变的,所以如果参赛者决定使用 PCA 版的输入,那么旋转不会改变那里的任何东西。

参赛者对(原始,即非 PCA-ed)输入特征的统计分析有多少回复?在这样的比赛中,是否有任何(其他)事情我应该知道,轮换可能会改变参赛者?

1个回答

具有干净、匿名和不透明数字特征的 Kaggle 比赛通常很受欢迎。我的观点是它们很受欢迎,因为它们更易于访问——你所需要的只是学习了至少一种 ML 监督学习方法,并且可能有一个加载数据的启动脚本,并且很容易提交。比赛变得非常关注优化参数、挑选最佳模型实现和集成技术。更高级的竞争对手也会非常仔细地改进和检查他们的简历方法,试图从他们身上挤出最后一点信心,以击败攀登公共排行榜的人群。

Otto Group Product ClassificationBNP Paribas Cardif CLaims Management等具有混淆数据的历史性 Kaggle 竞赛示例对于其中一些比赛,数据会根据用户的匿名性进行调整,否则这些用户可能会从记录中被识别出来。在其他情况下,赞助商的动机不太清楚。

然而,也有负面的后果(你会发现这些在相同的比赛中被抱怨):

  • 有效地阻止了使用来自领域知识的洞察力,或探索/研究来自被预测主题的基本原理。很难评估其影响,但赞助商可能会错过可能更好的模型。

  • 对于一些可能没有那么努力的竞争对手来说,“只做”机器学习方面可能有点过于机械和无聊。

参赛者对(原始,即非 PCA-ed)输入特征的统计分析有多少回复?

论坛(以及 Kaggle 的脚本 - 称为内核)中总是有数据探索和数据视图,许多人查看、支持并可能使用来自它们的见解。我记得至少有一个竞赛论坛主题,其中有很多关于出现在数据中的奇怪模式的讨论,这可能是混淆的产物(抱歉,我现在找不到主题)。

对于混淆数据,可以尝试去混淆,并且有时会部分成功。