我想进行文本/情感分析。
我能够分析带有 3 个标签的样本:(positive, neutral, negative)我使用了 SVM、随机森林、逻辑回归和梯度提升等算法。
我的脚本工作正常,并且通过交叉验证,我可以采用 4 种算法中最好的算法。
我使用带有 python 函数“Countvectorizer”的监督算法
但是我的老板在网上打了“NLP”,看了一些文章。
他告诉我:“这 3 个输出还不够,我想要一个完整的语义分析,可以解释句子的全局含义”
他似乎对有监督和无监督算法没有偏好。
他告诉我,他想要一个算法能够判断“公司总裁入狱”等同于“首席执行官入狱”。
那么您知道如何执行此操作吗?以及如何在 Python 中实现它?我想我们需要一个充满单词的大数据库,我知道这不是一个非常具体的问题,但我想向他展示所有的解决方案。
让我害怕的是他似乎对此不太了解,例如他告诉我“你必须减少数据集的高维”,而我的数据集只有 2000 个文本字段。
非常感谢您的回答:)
