如何解释马修斯相关系数(MCC)?

机器算法验证 相关性 解释 皮尔逊-r
2022-01-21 12:42:30

phi、Matthews 和 Pearson 相关系数之间的关系问题的答案?表明三种系数方法都是等价的。

我不是统计学家,所以这应该是一个简单的问题。

Matthews 的论文 (www.sciencedirect.com/science/article/pii/0005279575901099) 描述了以下内容:

"A correlation of:
   C =  1 indicates perfect agreement,
   C =  0 is expected for a prediction no better than random, and
   C = -1 indicates total disagreement between prediction and observation"`.

根据维基百科(http://en.wikipedia.org/wiki/Pearson_product-moment_correlation_coefficient),皮尔逊相关性描述为:

giving a value between +1 and −1 inclusive, where:
   1 is total positive correlation, 
   0 is no correlation, and
  −1 is total negative correlation

Pearson 相关系数解释最好理解为以下内容(根据http://faculty.quinnipiac.edu/libarts/polsci/Statistics.html):

If r =
   +.70 or higher Very strong positive relationship
   +.40 to +.69 Strong positive relationship
   +.30 to +.39 Moderate positive relationship
   +.20 to +.29 weak positive relationship
   +.01 to +.19 No or negligible relationship
   -.01 to -.19 No or negligible relationship
   -.20 to -.29 weak negative relationship
   -.30 to -.39 Moderate negative relationship
   -.40 to -.69 Strong negative relationship
   -.70 or higher Very strong negative relationship

阅读一些论文,对于 MCC 结果范围在 -1 和 1 之间没有任何程度的解释。该系数适用于负数和正数的不平衡数据集,如果在这种情况下预测器是准确的,则准确度指标无法很好地估计。

对于不平衡的数据集,F 度量是否是与 MCC 进行比较以评估预测器性能的好指标?例如:有些情况F-measure = 94%MCC = 0.58它告诉了预测器什么?

我可以对马修斯相关系数采用相同的解释,还是解释上有一些不同的含义?我相信这两个系数在解释上也是等价的。

2个回答

这个问题太简单了,不幸的是没有人能回答这个问题。

根据这篇论文:http ://www.bioinfopublication.org/files/articles/2_1_1_JMLT.pdf,MCC是一种计算皮尔逊积矩相关系数的列联矩阵方法。因此,它具有相同的解释。

马修斯相关系数是皮尔逊相关系数的一个特例。因此,两者的解释是相同的。检查我在 github 上的博客文章中的推导和其他详细信息