我正在尝试解决一个问题 - 对服务台电子邮件进行分类并将其发送给相关团队以进行解决。使用 Scikit-Learn、Numpy 和 Pandas 创建并测试了一个模型。- 标记电子邮件主题和正文,使用 Bag-of-Words/TfIdf,并应用 ML 算法,如 - SVM、随机森林、线性分类等。
现在,当我阅读更多内容时,遇到了 NLP 和神经网络、Keras、PyTorch、Tensorflow 等。
请问如何为我的特定问题选择正确的工具或解决方案?请指教。
我正在尝试解决一个问题 - 对服务台电子邮件进行分类并将其发送给相关团队以进行解决。使用 Scikit-Learn、Numpy 和 Pandas 创建并测试了一个模型。- 标记电子邮件主题和正文,使用 Bag-of-Words/TfIdf,并应用 ML 算法,如 - SVM、随机森林、线性分类等。
现在,当我阅读更多内容时,遇到了 NLP 和神经网络、Keras、PyTorch、Tensorflow 等。
请问如何为我的特定问题选择正确的工具或解决方案?请指教。
没有神奇的解决方案。你将不得不尝试。我想说的经验法则是首先尝试训练和部署成本较低的分类器(即 Scikit-learn),然后尝试使用 NN。
无论如何,对于您的问题,您可能有兴趣尝试使用 Genism 库进行主题建模,以提取电子邮件中提到的主题类型。
那么 spaCy 是一个很好的 NLP 生产任务工具,应该有一些文本分类演练使用它。
这些只是几个想法,我相信还有很多。我认为关键是要了解哪些关键指标、特征、单词负责将电子邮件标记为特定类别。