众所周知,当原假设为真时,p 值是均匀分布的。这是从 p 值的定义得出的
当这些值取自已知的固定分布(即空值为真)时,观察到一个值(或更极端的值)的概率。
在查看 pvalue 的分布时,这一事实允许进行一系列后续分析。
http://varianceexplained.org/statistics/interpreting-pvalue-histogram/ 查看 p 值直方图的示例。
但是,我担心不同的概率。而不是“更极端”的观察比例。我想知道“更罕见”的观察比例。
确实,“更极端”意味着“更罕见”,但是“更罕见”并不意味着“更极端”——特别是对于如下图 2 所示的零值下的多峰分布。观测值可能接近平均值,但仍然是来自零分布的低密度部分的罕见观测值。
单侧 p 值
对于我的“d 值”:
对于密度函数 theta(在我的例子中来自一个简单的单变量 KDE)
问题:
1)这些“d值”叫什么?我不能是第一个有这个问题的人吗?
2) 这些“d 值”在 Ho 下是如何分布的?
设 (最高模式的密度)
??
这有点像密度值的垂直整合,但忽略了任何密度 > 阈值。
3) 2 的分布是否无论在 Ho 下的观测分布是什么形式都成立?(它适用于 p 值 -> 统一)。




