如何为学生提出一个重要的 ML 任务?

数据挖掘 机器学习 分类 卡格尔
2021-10-03 05:02:56

由于我从事教学工作,我想在下学期为我的学生提供一个(基本)机器学习分类挑战。我真的很喜欢在一个看不见的数据集上给他们一个挑战并奖励表现最好的团队的想法——类似于 Kaggle 上的挑战。

但不幸的是,事实证明,很难找到一个没有一些(甚至很多)已完成的 Python 脚本或笔记本公开可用的数据集。这会以某种方式使挑战变得微不足道,因为事实并非如此。当然,我可以使用带有已发布解决方案的集合,但要更改任务,但大部分解决方案(预处理......)可以在不考虑的情况下重复使用。

我想要实现的是让学生从各个方面(预处理、特征选择、网络架构、指标......)“思考”问题,而不是复制和粘贴。

编辑:我已经浏览过UCI,但事实证明,几乎所有数据集都在 kaggle 上用解决方案表示

所以我的问题是:如何找到一个没有大量解决方案的合适的机器学习数据集?

2个回答

实际上,scikit-learn 有一个内置make_classification程序,您可以在其中调整噪声、类等的数量以创建自己的数据集

然后由您决定,将数据包装在您喜欢的任何故事中。

不久前我教 ML 时,我在制作自己的玩具数据集时获得了一些乐趣。您只需要一些创造力就可以在您的日常活动或爱好中看到一些真实(但“无用”)的数据。

例如,我录制了一段我在沙漠地区和地牢地区玩电子游戏(Grim Dawn)的视频,加上一些加载屏幕添加为“噪音”,并将帧下采样为表格数据,为聚类提供可行的数据集. 我还记得获得了一些神奇宝贝数据来查找某些统计数据和类型之间的关系。

如果您想要真正的“真实”数据,那么如果数据集已经准备好应用 ML,那么很可能有人已经在处理它。我发现将这些玩具数据集与合成但真实的数据混合在一起是最吸引人的。而且由于您自己构建数据集,您将知道它是否已准备好学习,并且很可能已经准备好,因为该过程应该简单化以避免花费太多时间。

我提到了两个电子游戏的例子,但你肯定可以找到一些由业余爱好者或你自己制作的电子表格!关于汽车或 PC 规格、音乐流派、运动或其他任何你现在想研究的东西。

¹ 记得征求许可