我看到人们大多在谈论词袋、td-idf 和词嵌入。但这些都是单词级别的。BoW 和 tf-idf 无法表示词序,词嵌入根本不代表任何顺序。表示不同长度文本的词序的最佳实践/最流行的方式是什么?简单地将单个单词的词嵌入连接成长向量似乎不适用于不同长度的文本......
或者除了依赖像transformer家族中的位置编码这样的网络架构之外,没有其他方法可以做到这一点?
顺便说一句,ngram 不是我的解决方案,因为它仍然无法解决表示不同长度文本的问题。(或者它可以以及如何?在我看来,ngram 更多的是用于下一个单词预测,而不是表示具有不同长度的文本。)
蒂亚:)