我编写了一个从网络上抓取数据的程序,并且我拥有大约 5k 个要分析的句子。
第 1 部分:我刚开始研究数据科学,想知道是否有图书馆这样的东西可以阅读文本并自动将单词或句子分类为正面/负面/中性。是否存在这样的东西,也许在 R 或 Python 中?
第 2 部分:据我所知,没有这样的图书馆,我必须自己动手做。分析情绪的最佳方法似乎是:
- a) 将单词放入语料库
- b)做词干和清理文本之类的事情
- c) 下载预定情绪的字典
- d) 运行一个向量化文本的程序
- e) 将我的语料库中的文本与字典进行比较
- f) .....不确定这一步之后会发生什么。
这些步骤是否准确,或者我完全偏离了基础?