如何评估训练模型的数据能力?

数据挖掘 数据挖掘 训练
2022-03-07 16:11:11

生物工程数据由 512 个二进制特征和一个布尔标签组成:如果特定的混合物值得进一步研究。有大约 1,200,000 个先前实验的结果可用。

每个“物理”测试都需要成本,因此很容易训练一个模型来预测某个特征组合是否值得进行实际测试。

我尝试了几个模型,都未能在测试数据上提供超过 52% 的准确率,考虑到二进制分类,这非常接近于盲目猜测。即,前馈多层感知器、随机森林、朴素贝叶斯模型。

对于 ML 入门课程中的一个简单的 XOR 示例,对于两个二进制输入,需要所有 4 个案例来训练网络。

考虑到所有组合的 512 位数和复杂的交叉影响,120 万个样本可能仍然是一个太小的数据集,无法训练 512 个输入。

从相反的角度思考,如何证明给定可用的训练数据不可能训练任何模型?

1个回答

1.2M 约为 2^16。你有 512 个特性加上这个概念,所以可能性的数量要大得多。因此,您可以声称您拥有的样本数量太少。

尽管如此,机器学习几乎总是在所有排列的样本较少的情况下完成。

VC 维度允许估计数据集与基础分布的拟合程度它适用于大小通常远小于排列数的假设类(例如,线性函数)。

请注意,排列的数量和 VC 维度都指的是更坏的情况。512 中的一个可能与该概念相同。在这种情况下,您将能够学习其他 511 功能。