我对机器学习很陌生。我手头有一个文本分类问题。我有大约 750 个文档(短文本)的标记数据集,手动分类为 16 个桶。我想在这些数据上训练一个分类器。我知道应该有一个训练集和一个测试集(一个选项可能是 80-20 )。据我了解,这应该是完整的集合(我的 750 个文档中的 80% - 训练,750 个文档中的 20% - 测试)。1.它们应该是随机生成的还是类别有条件?IE。如果A类占60%,B类占5%,C类占7%等,如何选择训练集?
文本分类:为每个类别选择训练和测试集
数据挖掘
机器学习
分类
文本挖掘
2022-01-19 17:42:15
1个回答
最常用的选项是分别将 2/3 的数据作为训练集和 1/3 的数据作为测试集。您在此分类过程中使用哪种软件或工具?为了让您的分类器在所有艰苦工作结束时高效工作,您是否考虑过在使用和分配训练和测试集之前使用多重交叉验证对其进行交叉验证?与偏斜数据类别一样,尝试为样本较少的类/类别寻找实例(~10%)。
其它你可能感兴趣的问题