数据集包含短文本的记录,通常是一个句子。目标是找到重复的记录和相似的记录。目前,我已经尝试过 R 包 'text2vec'、手套词向量和包提供的相似度 API。
该数据中有一个较小的子集已被标记为重复。目前,我还没有将其作为模型训练的一部分。此外,使用 text2vec 包,这个测试集的结果不是很好。所以现在我正在考虑已知在文本相似性方面表现良好的 RNN。
现在,我在特征工程和准备输入层方面需要帮助。需要比较的句子 S1 和 S2 的长度不同(单词表示的维度不同)。如何标准化这种差异?我应该考虑词袋还是手套词向量(词向量是更好的表示形式)?这方面的任何投入都会有所帮助。