如何为训练集选择样本

数据挖掘 机器学习 神经网络 支持向量机 训练
2022-03-14 08:22:06

我的数据集包含 50 万个未标记条目,具有 100 多个二进制特征。这些特征中有三分之一存在于不到 1000 个样本中。

我想手动分类一些样本(分为两个类别之一)并将它们用作 SVM 或神经网络的训练集。

如何选择样本进行手动分类?有一些首选的方法吗?我担心通过随机选择它们,并不是所有可能的特征都出现在我的训练集中。

我是否必须以相同的方式选择训练集和用于以后评估的数据集?例如,我是否可以只使用 10 个每个特征用法的示例进行训练并使用随机样本进行评估?

关于我的训练集必须有多大,是否有经验法则?

0个回答
没有发现任何回复~