以下摘录来自Schwager 的对冲基金市场奇才(2012 年 5 月),这是对一贯成功的对冲基金经理 Jaffray Woodriff 的采访:
对于这个问题:“人们在数据挖掘中犯的最严重的错误是什么?”:
很多人认为他们没问题,因为他们使用样本内数据进行训练,使用样本外数据进行测试。然后他们根据模型在样本内数据上的表现对模型进行排序,并选择最好的模型来测试样本外数据。人类的趋势是采用在样本外数据中继续表现良好的模型,并选择这些模型进行交易。这种类型的过程只是将样本外数据转换为训练数据的一部分,因为它会挑选在样本外期间表现最好的模型。这是人们最常犯的错误之一,也是通常应用数据挖掘产生可怕结果的原因之一。
面试官问:“你应该怎么做?”:
您可以寻找平均而言所有样本外模型继续表现良好的模式。如果样本外模型的平均值占样本内得分的很大比例,您就知道自己做得很好。一般而言,如果样本外结果超过样本内结果的 50%,那么您确实取得了进展。如果 SAS 和 IBM 正在构建出色的预测建模软件,QIM 的商业模式将永远不会奏效。
我的问题
这有意义吗?他什么意思?您是否有线索 - 或者甚至可能是建议方法的名称和一些参考资料?还是这家伙找到了别人不明白的圣杯?他甚至在这次采访中说,他的方法可能会彻底改变科学……