人工智能 - 是否有可能某些输入和输出之间没有关系？ - 吾爱随笔录

是否有可能某些输入和输出之间没有关系？

人工智能机器学习数据集数学回归函数逼近

2021-11-09 17:56:51

我正在做机器学习项目。我查看了我使用的许多数据集，其中大部分已经有每个人都在使用的著名数据集。

假设我决定制作自己的数据集。我的数据是否有可能如此随机，以至于我的输入和输出之间不存在任何关系？这很有趣，因为如果这是可能的，那么任何机器学习模型都无法在数据中找到输入输出关系，并且无法解决回归或分类问题。

此外，在数学上是否有可能某些值之间完全没有关系？换句话说，没有函数（线性或非线性）可以将这些输入映射到输出。

现在，我考虑了这个问题并得出结论，如果有这种可能性，那么它很可能会发生在回归中，因为目标输出可能在相同的范围内，并且相同的特征值可以对应相同的输出值，并且会混淆机器学习模型。

你有没有遇到过这个或类似的问题？

2个回答

当然，可以定义一个输入之间没有关系的问题 $x$ 和输出 $y$ . 一般来说，如果之间的互信息 $x$ 和 $y$ 为零（即 $x$ 和 $y$ 是统计独立的）那么你能做的最好的预测就是独立于 $x$ . 机器学习的任务是学习一个分布 $q(y|x)$ 尽可能接近真实数据生成分布 $p(y|x)$ .

例如，查看常见的交叉熵损失，我们有

\begin{aligned} H (p, q) = - E_{y, x \sim p} [\log q (y | x)] & = E_{x \sim p} [H (p (y | x)) + D_{KL} (p (y | x) ‖ q (y | x))] \\ = H (p (y)) + E_{x \sim p} [D_{KL} (p (y) ‖ q (y | x))], \end{aligned}

$\begin{align} H(p,q) = -\mathbb{E}_{y,x \sim p}\left[\log q(y|x)\right] & = \mathbb{E}_{x\sim p}\left[\text{H}(p(y|x)) + \text{D}_{\text{KL}}(p(y|x)\|q(y|x))\right] \\ & = \text{H}(p(y)) + \mathbb{E}_{x \sim p}\left[\text{D}_{\text{KL}}(p(y)\|q(y|x))\right], \end{align}$ 我们使用的事实是

p (y | x) = p (y)

$p(y|x)=p(y)$ 自从

y

$y$ 和

x

$x$ 是独立的。由此可以看出，最优预测分布

q (y | x)

$q(y|x)$ 等于

p (y)

$p(y)$ ，并且实际上独立于

x

$x$ . 此外，您可以获得的最佳损失等于熵

y

$y$ .

不确定我是否可以整体回答这个问题，但是纯随机输入/输出对根本不完全具有“没有关系”。至少，对于任何固定的训练集输入/输出对，你可以做一个 if...then 映射来构造一个 1 对 1 的函数，这样你就可以以 100% 的准确率对训练集进行分类（假设没有输入重复）。

无论如何，我假设你的意思是均匀随机，因为如果你有像高斯随机这样的东西，你仍然可以从随机数的生成方式中学习一些潜在的结构。

但是，即使您假设均匀随机，并且您的算法只是猜测，您的算法在技术上仍然根据数据生成分布以最佳方式运行，这基本上意味着它尽可能最佳。

我能想象的唯一能满足您的问题的情况是，如果您有一个单独的训练/验证集，其中训练输入/输出的唯一元素是 [1,1]，但验证集只有元素[1,-1] 或类似的东西。

通过阅读您的评论，我怀疑您提出问题的意图是：“是否存在数据关系使得没有方法可以学习它？”。如果数据生成分布存在，那么通过神经网络的通用逼近定理，那么你至少可以部分学习它是合理的。

然而，重要的是要注意，通用逼近定理并不意味着这样的数据生成分布可以通过神经网络来学习，它仅意味着您可以“尽可能接近非零”来生成数据分配。更明确地说：有一个权重设置可以让你得到你想要的结果，但梯度下降并不一定能学会它。

其它你可能感兴趣的问题

上一篇你能让特定数据比其他数据更能影响神经网络吗？下一篇较新的权重初始化技术如何优于零初始化或随机初始化？