如果您有一个带有正标签的文本,并且您的模型认为它是正的,那么您的模型输出的正概率将是最大的。
如果您询问您的模型,您(您的模型)认为该文本样本属于哪个标签最有可能,您的模型的答案是输出中概率第二大的类,依此类推。
总之,您的模型将类别从最可能到不太可能对您的样本进行排序。所以概率的顺序取决于你的模型信念,这样最可能的类别将具有最大的概率,而最不可能的类别将具有最小的概率。
我的问题:假设我们在正标签中有一段文字。那么,我们是否必须按以下顺序排列这些概率:
P(pos) > P(neu) > P(neg)
不完全是,这取决于你的模型信念,这取决于你的数据在表达积极、中立和消极的想法方面有多好。但通常在使用逻辑回归对正、中、负三类进行分类时,人们会在概率范围内设置正、中、负的阈值,例如:>0.7为正,在[0.4,0.7]中为中性,剩余为负。通过这样做,我们隐含地假设概率确实像你所说的那样有序。这是因为我们假设正面、中性和负面之间存在顺序,因此中性介于正面和负面之间。但是如果我们正在处理另一个问题,例如分类狗、猫和拳头,那么我认为我们不能假设顺序。
当我们按此顺序排列它们时,这意味着什么:
P(pos) > P(neg) > P(neu)
这意味着该模型认为您的样本中最有可能的类别是正面的,第二大可能是负面的,最不可能的是中性的。
我们能从中得出什么结论吗?例如,我们可以像以前一样自信地说标签是正面的吗?
在我看来,模型对它的答案很有信心,如果我们选择相信它,那么我们可以自信地说样本的类别和以前一样是正面的。