捕获文本中特征偏移的文本矢量化器?

数据挖掘 scikit-学习 特征提取 文本 tfidf 文本分类
2022-03-09 22:15:26

我正在使用 sklearn Tfifdfvectorizer 从文本中提取特征以进行文本分类。我相信我需要的信息往往在文档的开头,所以我想以某种方式捕获每个文档的每个特征的偏移量(无论是第一次出现,还是所有出现的平均偏移量)。有没有一些矢量化器可以做到这一点?或其他有效提取此信息的方法?

谢谢!

1个回答

一种方法是创建另一个矩阵来存储此信息。Scikit-learn 将文本特征存储在逐个文档的矩阵中。该矩阵的单元格将是文档中的标记索引。然后,该矩阵可以在建模期间用作特征。

它需要编写一个类似于scikit-learn 的 CountVector 实现的自定义向量器。