核密度估计需要多少数据点才能被认为是非误导性/可接受/充分的?
是否有一些基于数据分散程度的规则?
例如,如果四分位间距“足够小”,与四分位间距“更大”相比,您需要的分数是否更少?
或者,您可能遇到过特定大小的数据集“足够”或“不够”的情况,并且可以分享 KDE 在该特定情况下工作/不工作的原因?
评估准确性的标准:如果您有来自同一总体的两个样本,并且您对每个样本进行 KDE,那么得到的两个密度非常相似。
核密度估计需要多少数据点才能被认为是非误导性/可接受/充分的?
是否有一些基于数据分散程度的规则?
例如,如果四分位间距“足够小”,与四分位间距“更大”相比,您需要的分数是否更少?
或者,您可能遇到过特定大小的数据集“足够”或“不够”的情况,并且可以分享 KDE 在该特定情况下工作/不工作的原因?
评估准确性的标准:如果您有来自同一总体的两个样本,并且您对每个样本进行 KDE,那么得到的两个密度非常相似。
在“统计和数据分析的密度估计,Bernard. W. Silverman, CRC ,1986”一书中,有一章“给定精度所需的样本量”,其中给出了所需的样本量,以使相对 MSE 为零而不是更大那0.1。我附上那里的表格。