为什么我们使用参数分布而不是经验分布?

机器算法验证 造型 密度函数 累积分布函数 近似 密度估计
2022-03-19 03:31:24

概率密度函数 (pdf) 是连续随机变量的累积分布 (cdf) 的一阶导数。我认为这仅适用于定义明确的分布,例如高斯分布、t 分布、约翰逊 SU 等。

如果给定我们知道的真实数据不符合某些先验分布(完美),这是否意味着(可以安全地假设)真实数据的 cdf 无法区分,因此没有 pdf,使我们求助于直方图,或核密度,或对数样条近似,连续数据的pdf?

只是试图合理化统计中总是遇到的整个模型拟合热潮(高斯,t-,柯西),以及为什么它总是覆盖近似方法(直方图,核密度)。

换句话说,我们不是对经验数据(直方图、核密度)使用估计器,而是训练我们寻找最佳匹配模型(高斯、t-、柯西),即使我们知道真实数据的 pdf 与那个模型。

是什么让“建模”方法比“近似”更好?是吗,怎么样,更正确吗?

1个回答

需要大量数据来准确估计非参数分布,尤其是连续分布。即使这样,也需要一些关于分布平滑度的假设来填补观测值之间的差距(插值),并且需要其他假设来推断观测数据范围之外。对于小样本或中等样本,您通常会期望非参数估计的准确性较差。真实分布与用于逼近它的模型参数分布之间存在很大差异,以使非参数方法更准确。在更高的维度上尤其如此,因为随着维度的增长,数据变得越来越稀疏。