在训练、测试和验证集中拟合和转换文本数据

数据挖掘 分类 特征提取 交叉验证
2022-02-26 07:05:05

我正在尝试实现一个简单的文本分类器,其中数据分为训练集(70%)和测试集(30%),但要在训练集上执行交叉验证(k=10)。

我主要关心的是用于转换给定集合的基础。我已经看过使用整个数据集来拟合 Count/TFIDF 矢量化器的教程,但是由于前面提到的数据集包含在整个数据集中,这不会在转换验证集和测试集时引入偏差吗?还是偏差如此之小以至于可以接受?

在一个折叠内,如果训练集用于拟合矢量化器并转换验证集会更好吗?对于测试,是否应该使用训练 + 验证集来拟合矢量化器来转换测试集

在这个注释中,验证集是否也应该被视为类似于测试集的“看不见的”数据?

很多在线教程和笔记都展示了现成的数据集,但在某些情况下,文本数据的值取决于给定的一组文档(例如,如何根据一组文档计算 IDF)并且存在提取特征时更多细节。

我想我只是感到困惑,正在寻求对这种方式的一点澄清。谢谢!

1个回答

最好不要看到测试数据。您可以为您的测试数据创建数据转换管道,以便您的测试数据在通过管道后转换为 TFIDF 向量。通过这种方式,您可以了解您的模型在看不见的数据上的表现如何。

并且可以将整个训练数据转换为 TFIDF 向量并运行 k-fold 验证。