假设我们收集 100,000 次投掷公平硬币的数据,并记录“正面”或“反面”作为属性结果的值,并记录时间、温度和其他不相关的属性。
我们知道每次折腾的结果都是随机的,所以应该没有办法预测未来的未标记数据实例。
我的问题是,当我们将学习算法(例如支持向量机)应用于诸如此类的随机数据时,它们的表现如何?
假设我们收集 100,000 次投掷公平硬币的数据,并记录“正面”或“反面”作为属性结果的值,并记录时间、温度和其他不相关的属性。
我们知道每次折腾的结果都是随机的,所以应该没有办法预测未来的未标记数据实例。
我的问题是,当我们将学习算法(例如支持向量机)应用于诸如此类的随机数据时,它们的表现如何?
他们当然仍会学习一些最佳决策边界。我们知道这将毫无意义,但是当从这个随机过程拟合这个特定的数据实例时,算法仍然会有更好和最好的系数来学习。它可能会在数据集上产生超过 50% 的准确度,但这当然纯粹是由于过度拟合数据恰好是。它不会以超过 50% 的准确率预测未来的结果。