机器学习 - 预测区间 - 作弊?

机器算法验证 预测模型 助推 预测区间
2022-04-08 01:05:31

我在一家公司工作,该公司试图使用机器学习方法,特别是梯度提升和神经网络来预测股市数据,因此使用历史数据来预测股票/资产的价格x从现在开始的时间段。我们使用这些方法进行回归而不是分类,我在实验科学中接受训练的习惯是总是根据±,给出一个预测区间,而不仅仅是一个数字我的经理(他似乎不是很技术)告诉我这是不可接受的/作弊,因为我使用间隔来掩盖我的算法无法产生单个正确数字的事实。我对这种态度有点困惑,因为来自实验室科学(化学),我们总是以±.

所以,我想知道这里的统计专家是怎么想的?出于好奇,我查看了 Hastie、Witten 等人的机器学习教科书。等,他们使用测试集上的 MSE 来给出±关于他们在梯度提升中使用的示例的预测,所以这样做似乎是标准的......

谢谢。

2个回答

一般来说,预测区间被认为比点估计更好。虽然对明天的股票价格有一个很好的估计很好,但能够给出股票价格很可能处于的一系列价值要好得多

话虽如此,产生可靠的预测区间通常比仅仅产生具有良好预测特性的点估计更困难。例如,在许多情况下,我们可以证明,对于非常数方差,即使我们忽略非常数方差问题,我们仍然可以对新值的均值产生一致的估计。但是,我们肯定需要对方差函数进行可靠的估计来产生预测区间。

我听说有人只是把它当作机器学习问题的另一个层次:第一层次是产生一个函数f^(xi)=E[y^i|xi], 值的估计和第二级是产生一个函数V^(xi)=E[(yiy^i)2|xi],给定输入的函数方差的估计。理论上,这应该可行(给定足够的数据和稳定的函数),但在实践中,必须非常小心地处理它,因为方差估计本质上远不如均值估计稳定。简而言之,您应该期望需要更多数据才能准确估计V^(xi)f^(xi).

因此,与仅产生点估计相比,绝对没有关于“作弊”的预测间隔。只是更难做到。作为一个经验性的例子,在M4 预测竞赛中,产生 95% 预测区间的 15 种方法中只有 2 种具有几乎正确的覆盖率;大多数其他预测区间的覆盖率都在 80-90% 范围内(参见链接中的幻灯片 35)。

我不明白你们经理的态度。如果模型预测股票将是 173.56,而实际上是 173.55,他们会认为这是“失败”吗?如果你想从股市赚钱,你不应该依赖于正确的价格。股票投资就是为了减少方差,因此了解哪些预测具有最小的误差线是关键。

基本的回归模型是Y=mX+b+ϵ, 在哪里ϵ是均值为 0 且标准差为正态分布的误差项σ. 在训练模型时,我们发现mb最小化σ. 当我们使用模型进行预测时,我们预测给定一个特定的x, 这y将按均值正态分布mx+b和标准差σ. 因此,我们不预测y,我们正在预测分布y.

在这个模型中,精确值y不是确定性地依赖于x. 如果依赖既是确定性的又是线性的,那么一开始就不需要线性回归;可以简单地解决mb. 一个人可以有不同的模型,这些模型可以是非线性的和/或确定性的。但一般来说,回归模型是围绕您将有一些错误的想法构建的,并且应该有一些损失函数来量化特定错误的重要性,然后在训练集上最小化该损失函数。如果您的经理试图创建一个模型,该模型包含确定性决定股票价格的所有因素,那是非常雄心勃勃的。