电影评论情感分析的训练数据集

数据挖掘 机器学习 Python 分类 数据挖掘 情绪分析
2021-09-19 13:45:22

我目前正在使用 Python 进行情绪分析。我想根据情绪分析来确定对电影的评论是正面的还是负面的。我找到了此链接中提供的训练数据集。

这个数据集有评论,1 表示评论是正面的,0 表示电影评论是负面的,但它的记录数较少。我有一个测试数据集,我将根据训练集进行预测。我的测试数据集包含复杂而长的单词,我的 python ML 模型有时会给出负面评论的正面结果(返回结果为 1 表示负面评论)。我正在寻找更好的数据集来训练我的模型,以便我的模型可以很好地预测。您能否建议我在这种情况下使用任何好的/大而有效的训练数据集?如果您可以分享任何链接,那就太好了。训练数据的格式可以是 1 表示正面评论,0 表示负面评论,甚至像 pos 这样的极性表示正面评论或 neg 表示负面评论。

4个回答

您可以使用234K IMDb 电影评论的SAR14 数据集。SAR14 数据集的构建在论文“ Sentiment Classification on Polarity Reviews: An Empirical Study Using Rating-based Features ”中有详细介绍。

斯坦福情感分析数据集基于烂番茄评论,具有深入到句法组件级别的解析和情感注释

考虑到一个或多或少可靠的情感加载词词典包含数千个用于正面和负面情绪的词,约 7000 个样本数据条目绝对不够。基本上,当您训练模型时,您会在某种意义上构建这样的字典。

但是,现有的训练/测试数据集包含 50000 条评论,这比您拥有的要好一些。

同时,虽然训练样本数据的数量有助于分类器的质量,但训练集中文本作者使用的样式和字典与您的测试文本相似也很重要。此外,词干提取等文本处理技巧可能会提高训练效率。

有关更多信息,您可能想查看我和几位同事撰写的有关创建训练和测试数据集的博客文章。