对于一个大学项目,我选择对 Google Play 商店评论数据集进行情绪分析。我使用词袋 (BOW) 模型和 ADALINE 分类器对数据进行分类,获得了不错的结果。
我想通过在我的特征集中加入与主题(负或正)相关的二元组来改进我的模型。我发现这篇论文 使用 KL 散度来衡量 unigrams/bigrams 相对于主题的相关性。
唯一的问题是我无法理解等式(2.2)中 C 所指的内容。它是指与主题 C 相关的唯一词、主题上的文档集还是文档中的词?
对于一个大学项目,我选择对 Google Play 商店评论数据集进行情绪分析。我使用词袋 (BOW) 模型和 ADALINE 分类器对数据进行分类,获得了不错的结果。
我想通过在我的特征集中加入与主题(负或正)相关的二元组来改进我的模型。我发现这篇论文 使用 KL 散度来衡量 unigrams/bigrams 相对于主题的相关性。
唯一的问题是我无法理解等式(2.2)中 C 所指的内容。它是指与主题 C 相关的唯一词、主题上的文档集还是文档中的词?
由于这些是学术研究人员,他们以尽可能最一般的方式提出了这个问题。这term 可以是要建模的任何随机变量。在这种特殊情况下,是单个标记(unigrams 或 bigrams)。
我发现通过包含按搭配高度排列的二元组,经常出现的 n-grams,我发现了经验上的改进。通过包含常用短语,模型可以更好地捕捉语言在特定上下文中的使用方式。寻找搭配相对简单——对所有 n-gram 的出现进行排序,然后设置一个阈值以限制为仅最流行的。
这些作者正在寻找独特的信息,这些信息对模型来说要复杂得多,而且对于模型提升来说通常不是必需的。