我有一个包含约 20000 个样本的文本数据集(这还不够)。我使用文本增强来“发明”更多样本,所以基本上我将每个样本乘以 10 - 最终得到约 200000 个样本(10 个样本中的每一个都是不同类型的增强方法)。
在将其拆分为训练和测试数据集之前,我对整个数据集进行了此操作。我应该只为训练数据集做吗?
更新:
根据给出的答案,我有一个后续问题:
操作顺序应该是什么?我现在明白应该只在训练数据集上进行增强,但是标记化和词干化呢?
以下是正确的顺序吗?
- 将数据集拆分为 2 个数据集:训练和测试
- 仅在训练数据集上执行增强
- 对两个数据集进行词干化和标记化
- 文本编码
- 创建模型
- 在模型上拟合数据
- 评估
我想我的问题是关于第 3 步。是否按上述顺序正确放置?