数据挖掘的新革命方式?

机器算法验证 数据挖掘 曲线拟合 样本外
2022-02-12 23:27:18

以下摘录来自Schwager 的对冲基金市场奇才(2012 年 5 月),这是对一贯成功的对冲基金经理 Jaffray Woodriff 的采访:

对于这个问题:“人们在数据挖掘中犯的最严重的错误是什么?”:

很多人认为他们没问题,因为他们使用样本内数据进行训练,使用样本外数据进行测试。然后他们根据模型在样本内数据上的表现对模型进行排序,并选择最好的模型来测试样本外数据。人类的趋势是采用在样本外数据中继续表现良好的模型,并选择这些模型进行交易。这种类型的过程只是将样本外数据转换为训练数据的一部分,因为它会挑选在样本外期间表现最好的模型。这是人们最常犯的错误之一,也是通常应用数据挖掘产生可怕结果的原因之一。

面试官问:“你应该怎么做?”:

您可以寻找平均而言所有样本外模型继续表现良好的模式。如果样本外模型的平均值占样本内得分的很大比例,您就知道自己做得很好。一般而言,如果样本外结果超过样本内结果的 50%,那么您确实取得了进展。如果 SAS 和 IBM 正在构建出色的预测建模软件,QIM 的商业模式将永远不会奏效。


我的问题
这有意义吗?他什么意思?您是否有线索 - 或者甚至可能是建议方法的名称和一些参考资料?还是这家伙找到了别人不明白的圣杯?他甚至在这次采访中说,他的方法可能会彻底改变科学……

4个回答

不确定是否会有任何其他“咆哮”的回应,但这是我的。

交叉验证绝不是“新的”。此外,当找到分析解决方案时,不使用交叉验证。例如,您不使用交叉验证来估计 beta,而是使用OLSIRLS或其他一些“最佳”解决方案。

我认为引文中明显的差距没有提及实际检查“最佳”模型以查看它们是否有意义的任何概念。一般来说,一个好的模型在某种直观的层面上是有意义的。似乎声称CV是解决所有预测问题的灵丹妙药。也没有谈论在模型结构的更高级别进行设置 - 我们是否使用SVM回归树BoostingBaggingOLSGLMSGLMNS. 我们是否正则化变量?如果有怎么办?我们是否将变量组合在一起?我们想要对稀疏性的鲁棒性吗?我们有异常值吗?我们应该对数据进行整体建模还是分段建模?有太多的方法要根据CV来决定。

另一个重要方面是可用的计算机系统有哪些?数据如何存储和处理?是否存在缺失——我们如何解释这一点?

这是一个重要的问题:我们是否有足够好的数据来做出好的预测?我们的数据集中是否存在我们没有的已知变量?我们的数据是否代表了我们试图预测的内容?

交叉验证是一个有用的工具,但几乎没有革命性。我认为人们喜欢的主要原因是它似乎是一种“无数学”的统计方式。但是CV的很多领域在理论上是无法解决的——比如折叠的大小、分割的数量(我们将数据分成多少次K组?),划分应该是随机的还是系统的(例如,每折删除一个州或省,还是只删除一些随机的 5%)?什么时候重要?我们如何衡量绩效?我们如何解释不同折叠的错误率是相关的,因为它们基于相同的K2折叠的数据。

此外,我个人还没有看到计算机密集型CV与REMLVariational Bayes等较便宜的方法之间的权衡比较花费额外的计算时间可以换取什么?似乎简历在“小n”和“大p”案件比“大n小的p” 一如“大n小的p" 在样本外误差几乎等于样本内误差的情况下。

这有什么意义吗?部分地。

他什么意思?请问他。

您是否有线索 - 或者甚至可能是建议方法的名称和一些参考资料?

交叉验证。http://en.wikipedia.org/wiki/Cross-validation_(统计)

还是这家伙找到了别人不明白的圣杯?不。

他甚至在这次采访中说,他的方法可能会彻底改变科学……也许他忘了包括该陈述的参考资料……

他对数据挖掘中一个常见错误的解释似乎是明智的。他对他所做的事情的解释没有任何意义。当他说“一般来说,如果样本外结果超过样本内结果的 50%,你真的会有所收获。”是什么意思?然后说SAS和IBM的坏话也不会让他看起来很聪明。人们可以在不了解统计数据的情况下在市场上取得成功,而成功的一部分是运气。将成功的商人视为预测大师是错误的。

您可以寻找平均而言所有样本外模型继续表现良好的模式

我在这里对模式一词的理解是,他的意思是不同的市场条件。一种天真的方法会分析所有可用数据(我们都知道数据越多越好),以训练最佳曲线拟合模型,然后在所有数据上运行它,并一直与它进行交易。

更成功的对冲基金经理和算法交易员会利用他们的市场知识。作为一个具体的例子,交易时段的前半小时可能会更加波动。所以他们将在他们的所有数据上尝试模型,但只是前半小时,以及他们的所有数据,但不包括前半小时。他们可能会发现他们的两个模型在前半小时表现不错,但其中八个是赔钱的。然而,当他们排除前半个小时时,他们的七个模特赚钱,三个赔钱。

但是,他们并没有在交易的前半个小时使用这两个获胜模型,而是说:那是一天中算法交易的糟糕时间,我们根本不打算交易。剩下的时间他们将使用他们的七个模型。也就是说,在那个时候,机器学习似乎更容易预测市场,因此这些模型在未来更有可能可靠。(一天中的时间不是唯一的模式;其他模式通常与新闻事件有关,例如,在关键经济数据公布之前市场波动更大。)

这就是我对他所说的话的解释;这可能是完全错误的,但我希望它仍然对某人有用。