数据挖掘 - 旋转矩阵将如何影响机器学习竞赛中的参赛者？ - 吾爱随笔录

旋转矩阵将如何影响机器学习竞赛中的参赛者？

数据挖掘卡格尔

2021-10-09 02:15:31

像 Kaggle 这样的机器学习竞赛通常以人类可以理解的方式布置机器学习任务。例如，他们可能会告诉您输入（特征）的含义。但是，如果机器学习竞赛不想公开其输入数据的含义怎么办？我能想到的一种方法是将（随机）旋转矩阵应用于特征，这样每个结果特征都没有明显的意义。

输入空间上的旋转不应该改变模型将正负分开的能力（以二元分类为例）——毕竟相同的超计划（当应用相同的旋转时）可用于分离示例. 如果参赛者关心每个特征的分布（即在所有示例中查看单个特征的值时），旋转可能会改变它们。然而，旋转是 PCA 不变的，所以如果参赛者决定使用 PCA 版的输入，那么旋转不会改变那里的任何东西。

参赛者对（原始，即非 PCA-ed）输入特征的统计分析有多少回复？在这样的比赛中，是否有任何（其他）事情我应该知道，轮换可能会改变参赛者？

1个回答

具有干净、匿名和不透明数字特征的 Kaggle 比赛通常很受欢迎。我的观点是它们很受欢迎，因为它们更易于访问——你所需要的只是学习了至少一种 ML 监督学习方法，并且可能有一个加载数据的启动脚本，并且很容易提交。比赛变得非常关注优化参数、挑选最佳模型实现和集成技术。更高级的竞争对手也会非常仔细地改进和检查他们的简历方法，试图从他们身上挤出最后一点信心，以击败攀登公共排行榜的人群。

Otto Group Product Classification或BNP Paribas Cardif CLaims Management等具有混淆数据的历史性 Kaggle 竞赛示例。对于其中一些比赛，数据会根据用户的匿名性进行调整，否则这些用户可能会从记录中被识别出来。在其他情况下，赞助商的动机不太清楚。

然而，也有负面的后果（你会发现这些在相同的比赛中被抱怨）：

有效地阻止了使用来自领域知识的洞察力，或探索/研究来自被预测主题的基本原理。很难评估其影响，但赞助商可能会错过可能更好的模型。
对于一些可能没有那么努力的竞争对手来说，“只做”机器学习方面可能有点过于机械和无聊。

参赛者对（原始，即非 PCA-ed）输入特征的统计分析有多少回复？

论坛（以及 Kaggle 的脚本 - 称为内核）中总是有数据探索和数据视图，许多人查看、支持并可能使用来自它们的见解。我记得至少有一个竞赛论坛主题，其中有很多关于出现在数据中的奇怪模式的讨论，这可能是混淆的产物（抱歉，我现在找不到主题）。

对于混淆数据，可以尝试去混淆，并且有时会部分成功。

其它你可能感兴趣的问题

上一篇通过特征选择确定重要属性下一篇提高 R 中不平衡数据集的分类器性能