数据挖掘 - 随机数据上学习算法的行为 - 吾爱随笔录

数据挖掘机器学习数据挖掘分类预测建模支持向量机

2021-10-08 04:49:54

假设我们收集 100,000 次投掷公平硬币的数据，并记录“正面”或“反面”作为属性结果的值，并记录时间、温度和其他不相关的属性。

我们知道每次折腾的结果都是随机的，所以应该没有办法预测未来的未标记数据实例。

我的问题是，当我们将学习算法（例如支持向量机）应用于诸如此类的随机数据时，它们的表现如何？

1个回答

他们当然仍会学习一些最佳决策边界。我们知道这将毫无意义，但是当从这个随机过程拟合这个特定的数据实例时，算法仍然会有更好和最好的系数来学习。它可能会在数据集上产生超过 50% 的准确度，但这当然纯粹是由于过度拟合数据恰好是。它不会以超过 50% 的准确率预测未来的结果。

其它你可能感兴趣的问题