数据挖掘 - 捕获文本中特征偏移的文本矢量化器？ - 吾爱随笔录

数据挖掘 scikit-学习特征提取文本 tfidf 文本分类

2022-03-09 22:15:26

我正在使用 sklearn Tfifdfvectorizer 从文本中提取特征以进行文本分类。我相信我需要的信息往往在文档的开头，所以我想以某种方式捕获每个文档的每个特征的偏移量（无论是第一次出现，还是所有出现的平均偏移量）。有没有一些矢量化器可以做到这一点？或其他有效提取此信息的方法？

谢谢！

1个回答

一种方法是创建另一个矩阵来存储此信息。Scikit-learn 将文本特征存储在逐个文档的矩阵中。该矩阵的单元格将是文档中的标记索引。然后，该矩阵可以在建模期间用作特征。

它需要编写一个类似于scikit-learn 的 CountVector 实现的自定义向量器。

其它你可能感兴趣的问题