我这学期有一门机器学习课程,教授要求我们找到一个现实世界的问题,并通过课堂上介绍的一种机器学习方法来解决它,例如:
我是stackoverflow和stackexchange的粉丝之一,并且知道这些网站的数据库转储是向公众提供的,因为它们很棒!我希望我能找到一个关于这些数据库的好的机器学习挑战并解决它。
我的点子
我想到的一个想法是根据问题正文中输入的单词来预测问题的标签。我认为贝叶斯网络是学习问题标签的正确工具,但需要更多研究。无论如何,在用户完成输入问题的学习阶段之后,应该向他建议一些标签。
请告诉我:
作为经验丰富的人,我想就 ML 向统计社区提出两个问题:
你认为标签建议至少是一个有机会解决的问题吗?你有什么建议吗?我有点担心,因为 stackexchange 还没有实现这样的功能。
您对基于 stackexchange 数据库的 ML 项目有任何其他/更好的想法吗?我发现很难从 stackexchange 数据库中找到可以学习的东西。
关于数据库错误的考虑: 我想指出,尽管数据库很大并且有很多实例,但它们并不完美并且容易出错。显而易见的一个是不可靠的用户年龄。即使是为问题选择的标签也不是 100% 正确的。无论如何,我们应该在选择问题时考虑数据正确率的百分比。
关于问题本身的考虑:我的项目不应该是data-mining
这样的。它应该是 ML 方法在现实世界中的应用。