我正在尝试预测 stackoverflow 问题的标签,但我无法确定哪种机器学习算法将是正确的方法。
输入:作为我挖掘 stackoverflow 问题的数据集,我对数据集进行了标记化,并从该数据中删除了停用词和标点符号。
我尝试过的事情:
- 特遣部队
- 在数据集上训练朴素贝叶斯,然后给用户定义的输入来预测标签,但它不能正常工作
- 线性支持向量机
我应该使用有监督或无监督的 ML 算法?如果可能,请从头开始建议正确的 ML 方法。PS:我有 StackOverflow 上所有标签的列表,无论如何这会有帮助吗?谢谢