我有与客户和代理商的电话记录。我试图找到代理对客户做出的承诺。
我已经做了标点符号恢复。但是有很多句子没有任何意义。我想从成绩单中删除它们。它们中的大多数只是一组未连接的单词。我想知道哪种方法最适合这项任务?
我的想法是:
• 使用 tf idf 和 word2vec 从所有句子创建向量。之后,我们可以进行某种异常检测,例如查找和删除与大多数其他向量高度偏离的向量。
• 垃圾邮件过滤器。也许可以为此任务应用垃圾邮件过滤器?
• 创建正确句子必须包含的某些词性标签模式。例如,任何好的句子都必须包含名词+动词。或者我们可以使用例如来自 spacy 的依赖标记。
更新
我想保留的句子示例:
发送后,您将免费获得 ups 跟踪号。
一个垃圾句子的例子:
Kinder pr 只需再次输入,时钟驱动 bethel。
又是一句废话:
就这样你戴上它并说这是关于那个的。