我的数据集包含 50 万个未标记条目,具有 100 多个二进制特征。这些特征中有三分之一存在于不到 1000 个样本中。
我想手动分类一些样本(分为两个类别之一)并将它们用作 SVM 或神经网络的训练集。
如何选择样本进行手动分类?有一些首选的方法吗?我担心通过随机选择它们,并不是所有可能的特征都出现在我的训练集中。
我是否必须以相同的方式选择训练集和用于以后评估的数据集?例如,我是否可以只使用 10 个每个特征用法的示例进行训练并使用随机样本进行评估?
关于我的训练集必须有多大,是否有经验法则?