我有一个双峰人口数据集。它包含一个较小的峰(被认为是“坏”)和一个较大的峰。我尝试将数据的不良部分与其余数据分开。我所做的是:首先我做了一个核密度估计,然后找到这个小峰的局部最大值,以及两个峰之间的坑的局部最小值,然后我取它们的中点(x坐标的算术平均值),并将其定义为截止值。低于这个临界值的所有东西都被认为是“坏的”。我选择中点而不是坑的原因是因为我试图更加保守。
现在我想问:我做的合理吗?如果是,我如何以统计学家喜欢的方式解释我的行为?如果没有,我该如何改变?(欢迎任何其他方法,尤其是在 R 中实现的方法。)谢谢!
这是这个数字。
