字符级嵌入

数据挖掘 Python nlp word2vec
2021-10-07 19:27:35

我正在解决一个当前依赖于使用 Word2Vec 创建的词级嵌入的问题。我正在研究应用于此模型的新方法,其中一种是字符级嵌入。我没有找到太多关于它的信息,我不认为 Word2Vec 但在字符级别会有效。对于为整体分类模型的字符提供矢量表示是否有任何见解?

2个回答

为了完整起见,fastText 在创建嵌入时使用子词信息(字符级 n-gram),然后进行分类,得到一些有趣的结果:

  • 可以对与已知单词有一定相似性的未知单词进行预测
  • 对像“去”-“去”+“给”=“给”这样的句法关系建模有有趣的结果

这完全取决于您要分类的内容。

使用字符嵌入对句子进行语义分类会引入不必要的复杂性,使数据更难拟合。尽管使用 n-gram 将有助于模型处理词的派生词。

根据衍生词对单词进行分类将是一项需要字符嵌入的任务。

如果您要问是否像使用 word2vec 那样训练模型嵌入字符是否有用,那么没有。事实上可能会产生不好的结果。我们使用嵌入来隐式编码两个数据点靠得很近,因此应该更类似于模型来对待。字母“d”在语义上不应该比“q”更接近“e”。