我正在用 python 语言进行多标签新闻分类。我拥有的数据集有两个文件。第一个 CSV 在每一行都包含文章。第二个 CSV 包含每篇文章的相应标签。这是标签文件的快照
这是保管箱链接.... https://www.dropbox.com/s/7huzh41je735oqn/labelset.csv?dl=0
- 数据集是不平衡的吗?
- 如何将此数据集正确分配到训练集、验证集和测试集?
注意:我的意思是,这个不平衡的数据集可以在训练、验证和测试集中分成适当的比例吗?
我正在用 python 语言进行多标签新闻分类。我拥有的数据集有两个文件。第一个 CSV 在每一行都包含文章。第二个 CSV 包含每篇文章的相应标签。这是标签文件的快照
这是保管箱链接.... https://www.dropbox.com/s/7huzh41je735oqn/labelset.csv?dl=0
注意:我的意思是,这个不平衡的数据集可以在训练、验证和测试集中分成适当的比例吗?
我会一一解答你的问题:
数据集是不平衡的吗?
平衡数据集和不平衡数据集之间的区别是程度问题。如果您认为每个类别的观察次数差异太大,我建议您使用Mini-Batch Gradient Descent训练您的模型,并以观察具有相同频率的方式构建任何小批量。这会将更大的权重归因于不太频繁的观察。
如何将此数据集正确分配到训练集、验证集和测试集?
确保所有类在集合中均匀分布。
是的,您一直在使用的数据集是一个不平衡的数据集,但是如果您不直接预测结果,而是通过前 3 个预测来解决这个问题,那么这个问题很容易解决。除了前 3 个预测之外,您还可以再添加一项阈值检查以验证预测并最终确定预测。
除此之外,我建议您手动将数据集拆分为训练集和验证集,以保持数据的一致性并帮助解决协变量偏移问题。