我做了很多谷歌搜索,但找不到一篇论文,该论文提出了一种算法,该算法将为短文本输入生成密集的特征向量。我很乐意找到至少与稀疏单词一元和二元特征向量一样好的特征提取算法。
目前我正在探索使用 LDA(潜在狄利克雷分配)的想法,但处理短文本(每个文档 2-7 个字)存在问题。
手头的任务是短文本分类。我的数据的类别数量从 10 到 20 个类别不等。这些类的表现相当好,单词 unigram 和 bigram 的特征也很好用。我想为其他实验计算密集特征向量。
任何指向论文的指针,最好是简单的实现,将不胜感激。