我正在为我的公司实施“选择退出”过滤器。输入是简短的文本消息样式消息。选择退出消息的一些示例是:
- “把我从你的名单中删除”
- “从列表中删除”
- “请取消订阅列表”
- 等等
所有其他消息都是“好”的,不应删除。
我对方法的看法:
我正在考虑在这里使用贝叶斯分类器,但并不真正了解解决方案空间(或在 ML 方面有很多背景),想确保我不会在次优解决方案上浪费时间。
没有最前沿的解决方案我很好,但我想确保我没有错过一种可能同样简单但更有效的方法。
我正在为我的公司实施“选择退出”过滤器。输入是简短的文本消息样式消息。选择退出消息的一些示例是:
所有其他消息都是“好”的,不应删除。
我正在考虑在这里使用贝叶斯分类器,但并不真正了解解决方案空间(或在 ML 方面有很多背景),想确保我不会在次优解决方案上浪费时间。
没有最前沿的解决方案我很好,但我想确保我没有错过一种可能同样简单但更有效的方法。
您应该使用文本分类技术。最基本的一种是具有 tf-idf 特征的多项朴素贝叶斯分类器。对于这种方法,看看这个: https ://scikit-learn.org/stable/tutorial/text_analytics/working_with_text_data.html
如果您没有获得足够的准确度(或者可能是准确度、召回率或 f 分数),您可以测试更复杂的技术,例如使用带有词嵌入的深度 LSTM 网络。对于这种方法,看看这个: https ://machinelearningmastery.com/use-word-embedding-layers-deep-learning-keras/