在机器学习方面,我是新手。我试图通过使用 python 的 scikit-learn 库分析不同的监督学习算法来获得经验。我正在使用包含 160 万条推文的 Sentiment140 数据集,使用这些算法进行情感分析。
我不知道这是否是一个愚蠢的问题,但我想知道当你只训练了两个类别(正面和负面)时,是否可以将其分为三个类别(正面、负面和中性)。Sentiment140训练集总共只包含两个类别(正面和负面),总共 160 万条推文,但他们的测试集包含三个类别(正面、负面和中性)的 500 条推文,所以它让我思考。
那么这可能吗?如果是,我如何继续识别中性推文?直观地说,我可以用来找到测试集中每个分类推文在每个类别上的条件概率(使用 predict_proba),并判断它是否是中性的,如果它对于正类和负类都低于某个阈值(比如小于 0.7) . 这是正确的方法吗?