我有一个普遍的问题出现在我的脑海中,我正在做机器学习项目,我查看了许多数据集并与之合作,其中大部分已经有每个人都在使用的著名数据集。
现在我想到了一个问题,假设我决定制作自己的数据集,是否有可能我的数据非常随机,以至于我的输入和输出之间不存在任何关系?这很有趣,因为如果这是可能的,那么任何机器学习模型都无法在数据中找到输入输出关系,并且无法解决回归或分类问题。
此外,在数学上是否有可能某些值之间完全没有关系?换句话说,没有函数(线性或非线性)可以将这些输入映射到输出。
现在我考虑了这个问题并得出结论,如果有这种可能性,那么它可能会在回归中发生,因为可能目标输出在同一范围内,并且相同的特征值可以对应相同的输出值,这会混淆机器学习模型。
您对此有何看法?作为机器学习工程师、数据科学家或业余爱好者,您在日常生活中是否遇到过这个问题?