数据挖掘 - 字符级嵌入 - 吾爱随笔录

数据挖掘 Python nlp word2vec

2021-10-07 19:27:35

我正在解决一个当前依赖于使用 Word2Vec 创建的词级嵌入的问题。我正在研究应用于此模型的新方法，其中一种是字符级嵌入。我没有找到太多关于它的信息，我不认为 Word2Vec 但在字符级别会有效。对于为整体分类模型的字符提供矢量表示是否有任何见解？

2个回答

为了完整起见，fastText 在创建嵌入时使用子词信息（字符级 n-gram），然后进行分类，得到一些有趣的结果：

这完全取决于您要分类的内容。

使用字符嵌入对句子进行语义分类会引入不必要的复杂性，使数据更难拟合。尽管使用 n-gram 将有助于模型处理词的派生词。

根据衍生词对单词进行分类将是一项需要字符嵌入的任务。

如果您要问是否像使用 word2vec 那样训练模型嵌入字符是否有用，那么没有。事实上可能会产生不好的结果。我们使用嵌入来隐式编码两个数据点靠得很近，因此应该更类似于模型来对待。字母“d”在语义上不应该比“q”更接近“e”。

其它你可能感兴趣的问题