数据挖掘 - 文本分类：为每个类别选择训练和测试集 - 吾爱随笔录

我对机器学习很陌生。我手头有一个文本分类问题。我有大约 750 个文档（短文本）的标记数据集，手动分类为 16 个桶。我想在这些数据上训练一个分类器。我知道应该有一个训练集和一个测试集（一个选项可能是 80-20 ）。据我了解，这应该是完整的集合（我的 750 个文档中的 80% - 训练，750 个文档中的 20% - 测试）。1.它们应该是随机生成的还是类别有条件？IE。如果A类占60%，B类占5%，C类占7%等，如何选择训练集？