我正在使用 sklearn Tfifdfvectorizer 从文本中提取特征以进行文本分类。我相信我需要的信息往往在文档的开头,所以我想以某种方式捕获每个文档的每个特征的偏移量(无论是第一次出现,还是所有出现的平均偏移量)。有没有一些矢量化器可以做到这一点?或其他有效提取此信息的方法?
谢谢!
我正在使用 sklearn Tfifdfvectorizer 从文本中提取特征以进行文本分类。我相信我需要的信息往往在文档的开头,所以我想以某种方式捕获每个文档的每个特征的偏移量(无论是第一次出现,还是所有出现的平均偏移量)。有没有一些矢量化器可以做到这一点?或其他有效提取此信息的方法?
谢谢!
一种方法是创建另一个矩阵来存储此信息。Scikit-learn 将文本特征存储在逐个文档的矩阵中。该矩阵的单元格将是文档中的标记索引。然后,该矩阵可以在建模期间用作特征。
它需要编写一个类似于scikit-learn 的 CountVector 实现的自定义向量器。