数据挖掘 - 在训练、测试和验证集中拟合和转换文本数据 - 吾爱随笔录

我正在尝试实现一个简单的文本分类器，其中数据分为训练集（70%）和测试集（30%），但要在训练集上执行交叉验证（k=10）。

我主要关心的是用于转换给定集合的基础。我已经看过使用整个数据集来拟合 Count/TFIDF 矢量化器的教程，但是由于前面提到的数据集包含在整个数据集中，这不会在转换验证集和测试集时引入偏差吗？还是偏差如此之小以至于可以接受？

在一个折叠内，如果训练集用于拟合矢量化器并转换验证集会更好吗？对于测试，是否应该使用训练 + 验证集来拟合矢量化器来转换测试集？

在这个注释中，验证集是否也应该被视为类似于测试集的“看不见的”数据？

很多在线教程和笔记都展示了现成的数据集，但在某些情况下，文本数据的值取决于给定的一组文档（例如，如何根据一组文档计算 IDF）并且存在提取特征时更多细节。

我想我只是感到困惑，正在寻求对这种方式的一点澄清。谢谢！