保留句子中词序的 NLP 文本表示技术?

数据挖掘 nlp 特征工程 文本挖掘 特征提取 文本
2022-03-09 20:26:40

我看到人们大多在谈论词袋、td-idf 和词嵌入。但这些都是单词级别的。BoW 和 tf-idf 无法表示词序,词嵌入根本不代表任何顺序。表示不同长度文本的词序的最佳实践/最流行的方式是什么?简单地将单个单词的词嵌入连接成长向量似乎不适用于不同长度的文本......

或者除了依赖像transformer家族中的位置编码这样的网络架构之外,没有其他方法可以做到这一点?

顺便说一句,ngram 不是我的解决方案,因为它仍然无法解决表示不同长度文本的问题。(或者它可以以及如何?在我看来,ngram 更多的是用于下一个单词预测,而不是表示具有不同长度的文本。)

蒂亚:)

1个回答

我建议使用部分语音 (POS),更具体地说,使用RDF -Triple ofSubject.PredicateObject

它既充当句子的主要结构,保持顺序(即主语谓词在宾语上)。

看看你能不能单独去。如果没有,您可以从您提到的技术(bagging、tf-idf 等)中添加它。

请在此处查看我的答案,以获取在 rdf-triple 上建议的组合 tf-idf 分数,以检查三重奏本身是否“足够独特”。