生物工程数据由 512 个二进制特征和一个布尔标签组成:如果特定的混合物值得进一步研究。有大约 1,200,000 个先前实验的结果可用。
每个“物理”测试都需要成本,因此很容易训练一个模型来预测某个特征组合是否值得进行实际测试。
我尝试了几个模型,都未能在测试数据上提供超过 52% 的准确率,考虑到二进制分类,这非常接近于盲目猜测。即,前馈多层感知器、随机森林、朴素贝叶斯模型。
对于 ML 入门课程中的一个简单的 XOR 示例,对于两个二进制输入,需要所有 4 个案例来训练网络。
考虑到所有组合的 512 位数和复杂的交叉影响,120 万个样本可能仍然是一个太小的数据集,无法训练 512 个输入。
从相反的角度思考,如何证明给定可用的训练数据不可能训练任何模型?