是否有可能某些输入和输出之间没有关系?

人工智能 机器学习 数据集 数学 回归 函数逼近
2021-11-09 17:56:51

我正在做机器学习项目。我查看了我使用的许多数据集,其中大部分已经有每个人都在使用的著名数据集。

假设我决定制作自己的数据集。我的数据是否有可能如此随机,以至于我的输入和输出之间不存在任何关系?这很有趣,因为如果这是可能的,那么任何机器学习模型都无法在数据中找到输入输出关系,并且无法解决回归或分类问题。

此外,在数学上是否有可能某些值之间完全没有关系?换句话说,没有函数(线性或非线性)可以将这些输入映射到输出。

现在,我考虑了这个问题并得出结论,如果有这种可能性,那么它很可能会发生在回归中,因为目标输出可能在相同的范围内,并且相同的特征值可以对应相同的输出值,并且会混淆机器学习模型。

你有没有遇到过这个或类似的问题?

2个回答

当然,可以定义一个输入之间没有关系的问题x和输出y. 一般来说,如果之间的互信息xy为零(即xy是统计独立的)那么你能做的最好的预测就是独立于x. 机器学习的任务是学习一个分布q(y|x)尽可能接近真实数据生成分布p(y|x).

例如,查看常见的交叉熵损失,我们有

H(p,q)=Ey,xp[logq(y|x)]=Exp[H(p(y|x))+DKL(p(y|x)q(y|x))]=H(p(y))+Exp[DKL(p(y)q(y|x))],
我们使用的事实是p(y|x)=p(y)自从yx是独立的。由此可以看出,最优预测分布q(y|x)等于p(y),并且实际上独立于x. 此外,您可以获得的最佳损失等于熵y.

不确定我是否可以整体回答这个问题,但是纯随机输入/输出对根本不完全具有“没有关系”。至少,对于任何固定的训练集输入/输出对,你可以做一个 if...then 映射来构造一个 1 对 1 的函数,这样你就可以以 100% 的准确率对训练集进行分类(假设没有输入重复)。

无论如何,我假设你的意思是均匀随机,因为如果你有像高斯随机这样的东西,你仍然可以从随机数的生成方式中学习一些潜在的结构。

但是,即使您假设均匀随机,并且您的算法只是猜测,您的算法在技术上仍然根据数据生成分布以最佳方式运行,这基本上意味着它尽可能最佳。

我能想象的唯一能满足您的问题的情况是,如果您有一个单独的训练/验证集,其中训练输入/输出的唯一元素是 [1,1],但验证集只有元素[1,-1] 或类似的东西。

通过阅读您的评论,我怀疑您提出问题的意图是:“是否存在数据关系使得没有方法可以学习它?”。如果数据生成分布存在,那么通过神经网络的通用逼近定理,那么你至少可以部分学习它是合理的。

然而,重要的是要注意,通用逼近定理并不意味着这样的数据生成分布可以通过神经网络来学习,它仅意味着您可以“尽可能接近非零”来生成数据分配。更明确地说:有一个权重设置可以让你得到你想要的结果,但梯度下降并不一定能学会它。