测量经过训练的神经网络的相关性

机器算法验证 相关性 神经网络 斯皮尔曼罗
2022-03-13 01:53:44

我正在使用非正态分布数据训练人工神经网络(反向传播、前馈)。除了均方根误差外,文献确实经常建议使用 Pearson 相关系数来评估训练网络的质量。但是,如果训练数据不是正态分布的,皮尔逊相关系数是否合理?使用基于等级的相关性度量(例如 Spearman rho)不是更合理吗?

1个回答

Pearson 相关系数衡量线性关联。基于经验的第二中心矩,它受极值的影响。所以:

  • 在实际值与预测值的散点图中存在非线性的证据建议使用诸如等级相关(Spearman)系数之类的替代方法;

    • 如果该关系平均看起来是单调的(如上图所示),则秩相关系数将是有效的;

    • 否则,这种关系是曲线的(如插图下排的一些示例,例如最左边或中间的 u 形),并且任何相关性度量都可能是不充分的描述;使用等级相关系数不会解决这个问题。

  • 散点图中存在异常数据表明 Pearson 相关系数可能夸大了线性关系的强度。它可能正确也可能不正确;谨慎使用它。秩相关系数可能更好也可能不会更好,这取决于离群值的可信度。

散点图及其 Pearson 相关性示例

(图片复制自维基百科关于Pearson 积矩相关系数的文章。)