预测性能更多地取决于数据分析师的专业知识而不是方法?

机器算法验证 预测模型 方法比较
2022-03-13 23:54:11

我听说过一些研究表明,预测模型的性能更多地取决于数据分析师对所选方法的专业知识,而不是方法的选择。
换句话说,声称数据分析师熟悉所选方法比从更理论的角度来看该方法对问题的“适当性”更为重要。

这是在化学计量学的背景下提到的,这通常涉及许多变量(100s - 1000s)、多重共线性,当然还有样本太少的问题。预测可能是分类或回归。

我的个人经验表明这是合理的,但提到了一项研究(我在快速但不成功的搜索后通过电子邮件询问了提到这一点的人,但从未收到任何答案)。但是,通过更精细的搜索,我也无法找到任何论文。

有人知道这样的发现吗?如果不是,这里的大佬们的亲身经历说明了什么?

1个回答

实际上,我听说过一个传言,体面的学习机器通常比专家更好,因为人类倾向于以牺牲偏差(过度平滑)为代价来最小化方差,从而导致新数据集的预测性能不佳。该机器经过校准以最小化 MSE,因此在新数据集中的预测方面往往做得更好