我听说过一些研究表明,预测模型的性能更多地取决于数据分析师对所选方法的专业知识,而不是方法的选择。
换句话说,声称数据分析师熟悉所选方法比从更理论的角度来看该方法对问题的“适当性”更为重要。
这是在化学计量学的背景下提到的,这通常涉及许多变量(100s - 1000s)、多重共线性,当然还有样本太少的问题。预测可能是分类或回归。
我的个人经验表明这是合理的,但提到了一项研究(我在快速但不成功的搜索后通过电子邮件询问了提到这一点的人,但从未收到任何答案)。但是,通过更精细的搜索,我也无法找到任何论文。
有人知道这样的发现吗?如果不是,这里的大佬们的亲身经历说明了什么?