我对词嵌入有很好的理解(在其核心,人们可以认为一个词被转换成一个向量,比如说,100 个维度,并且每个维度都有一个特定的值......这允许对这些词进行数学运算,它也使训练集变得非稀疏......)
但是今天我突然想到了一些标点符号,例如,。() ? !... ?
它们确实对句子的含义有巨大的影响,并且像单词一样,它们的使用位置和上下文是相关的。
所以问题是,这应该如何建模?预训练集是否GloVe包括标点符号?我应该简单地从文本中删除标点符号吗?
我对词嵌入有很好的理解(在其核心,人们可以认为一个词被转换成一个向量,比如说,100 个维度,并且每个维度都有一个特定的值......这允许对这些词进行数学运算,它也使训练集变得非稀疏......)
但是今天我突然想到了一些标点符号,例如,。() ? !... ?
它们确实对句子的含义有巨大的影响,并且像单词一样,它们的使用位置和上下文是相关的。
所以问题是,这应该如何建模?预训练集是否GloVe包括标点符号?我应该简单地从文本中删除标点符号吗?
, 等标点符号。() ? !... ? 都包含在预训练的词向量中,例如 Glove。但是,通常会发现未包含在预训练向量中的短语、缩写和拼写错误。如何处理这些短语在很大程度上取决于分析的目标和文本的上下文。