检查统计上显着的峰值

机器算法验证 回归 统计学意义 曲线
2022-02-15 14:51:25

我有一组数据我想检验以下假设:有一个峰值;即随着的增加,先增加后减少。yxyxy

我的第一个想法是在 SLR也就是说,如果我发现之前的系数显着为正,而之前的系数显着为负,那么我支持这个假设。但是,这仅检查一种类型的关系(二次)并且可能不一定捕获峰值的存在。xx2xx2

然后我想找到,这样一个区域(的排序值)介于的另外两个区域至少包含与一样多的点,并且 显着。如果假设为真,我们应该期待许多这样的区域因此,如果的数量足够大,则该假设应该得到支持。bxbacxbyb¯>ya¯yb¯>yc¯bb

您认为我在为我的假设找到合适的检验方面走在正确的轨道上吗?还是我在发明轮子,并且有解决这个问题的既定方法?我将非常感谢您的意见。

更新。我的因变量是计数(非负整数)。y

2个回答

我也在考虑平滑的想法。但是有一个称为响应面方法的整个领域可以搜索噪声数据中的峰值(它主要涉及对数据使用局部二次拟合),并且我记得有一篇著名的论文,标题是“Bump Hunting”。以下是有关响应面方法的书籍的一些链接。Ray Myer 的书写得特别好。我会试着找到凹凸狩猎纸。

响应面方法:使用设计实验的过程和产品优化

响应面方法和相关主题

响应面法

经验模型构建和响应曲面

虽然不是我要找的文章,但这Jerry Friedman 和 Nick Fisher 撰写的一篇非常相关的文章,讨论了应用于高维数据的这些想法。

这是一篇带有一些在线评论的文章。

所以我希望你至少能欣赏我的回答。我认为您的想法很好并且在正确的轨道上,但是是的,我确实认为您可能正在重新发明轮子,我希望您和其他人会看看这些优秀的参考资料。

即使您还没有回答我的问题,如果我的猜测是正确的,您正在寻找一个在频域中数量的白噪声测试,以表明频谱是平坦的。因此,可以使用在本参考文献中称为 Fisher 卡帕的 Fisher 周期图检验。请参阅链接。

http://www4.stat.ncsu.edu/~dickey/Spain/pdf_Notes/Spectral2.pdf

参考文献中也提到了巴特利特的测试。现在拒绝零假设相当于在周期图中找到一个显着的峰值。这意味着时间序列中存在周期性分量。

因为测试在频域中并且涉及周期图纵坐标,所以纵坐标在原假设下具有卡方 2 分布并且是独立的。这种特殊分布的出现只是因为转换到频域。如果 x 是时间,则这在时域中不起作用,或者通常 ys 的分布不会是独立的卡方。

但是采用独立于 x 的模型 y=constant。使用 y,即 ys 的平均值作为常数的估计值。然后测试是否存在峰值将等于拒绝残差形成白噪声序列。m