我正在尝试实现一个简单的文本分类器,其中数据分为训练集(70%)和测试集(30%),但要在训练集上执行交叉验证(k=10)。
我主要关心的是用于转换给定集合的基础。我已经看过使用整个数据集来拟合 Count/TFIDF 矢量化器的教程,但是由于前面提到的数据集包含在整个数据集中,这不会在转换验证集和测试集时引入偏差吗?还是偏差如此之小以至于可以接受?
在一个折叠内,如果训练集用于拟合矢量化器并转换验证集会更好吗?对于测试,是否应该使用训练 + 验证集来拟合矢量化器来转换测试集?
在这个注释中,验证集是否也应该被视为类似于测试集的“看不见的”数据?
很多在线教程和笔记都展示了现成的数据集,但在某些情况下,文本数据的值取决于给定的一组文档(例如,如何根据一组文档计算 IDF)并且存在提取特征时更多细节。
我想我只是感到困惑,正在寻求对这种方式的一点澄清。谢谢!