数据挖掘 - 如何为训练集选择样本 - 吾爱随笔录

我的数据集包含 50 万个未标记条目，具有 100 多个二进制特征。这些特征中有三分之一存在于不到 1000 个样本中。

我想手动分类一些样本（分为两个类别之一）并将它们用作 SVM 或神经网络的训练集。

如何选择样本进行手动分类？有一些首选的方法吗？我担心通过随机选择它们，并不是所有可能的特征都出现在我的训练集中。

我是否必须以相同的方式选择训练集和用于以后评估的数据集？例如，我是否可以只使用 10 个每个特征用法的示例进行训练并使用随机样本进行评估？

关于我的训练集必须有多大，是否有经验法则？