由于我从事教学工作,我想在下学期为我的学生提供一个(基本)机器学习分类挑战。我真的很喜欢在一个看不见的数据集上给他们一个挑战并奖励表现最好的团队的想法——类似于 Kaggle 上的挑战。
但不幸的是,事实证明,很难找到一个没有一些(甚至很多)已完成的 Python 脚本或笔记本公开可用的数据集。这会以某种方式使挑战变得微不足道,因为事实并非如此。当然,我可以使用带有已发布解决方案的集合,但要更改任务,但大部分解决方案(预处理......)可以在不考虑的情况下重复使用。
我想要实现的是让学生从各个方面(预处理、特征选择、网络架构、指标......)“思考”问题,而不是复制和粘贴。
编辑:我已经浏览过UCI,但事实证明,几乎所有数据集都在 kaggle 上用解决方案表示
所以我的问题是:如何找到一个没有大量解决方案的合适的机器学习数据集?