我试图将大约6000 万个短语嵌入到向量空间中,然后计算它们之间的余弦相似度。我一直在使用 sklearnCountVectorizer和一个自定义构建的分词器功能,该功能产生一元和二元。事实证明,为了获得有意义的表示,我必须允许大量的列,与行数成线性关系。这会导致令人难以置信的稀疏矩阵并降低性能。如果只有大约 10,000 列就不会那么糟糕了,我认为这对于词嵌入来说是相当合理的。
我正在考虑尝试使用谷歌的word2vec,因为我很确定它会产生更低维度和更密集的嵌入。但在此之前,是否还有其他可能值得一看的嵌入?关键要求是能够扩展大约 6000 万个短语(行)。
我对词嵌入领域很陌生,所以任何建议都会有所帮助。
我还应该补充一点,我已经在使用奇异值分解来提高性能。