根据我读过的几篇论文、书籍和文章,我得到的印象是,在一组数据上拟合概率分布的推荐方法是使用最大似然估计 (MLE)。但是,作为物理学家,更直观的方法是使用最小二乘法将模型的 pdf 拟合到数据的经验 pdf。那么为什么 MLE 在拟合概率分布方面优于最小二乘法呢?有人可以指点我回答这个问题的科学论文/书吗?
我的预感是因为 MLE 不假设噪声模型,并且经验 pdf 中的“噪声”是异方差且不正常的。
根据我读过的几篇论文、书籍和文章,我得到的印象是,在一组数据上拟合概率分布的推荐方法是使用最大似然估计 (MLE)。但是,作为物理学家,更直观的方法是使用最小二乘法将模型的 pdf 拟合到数据的经验 pdf。那么为什么 MLE 在拟合概率分布方面优于最小二乘法呢?有人可以指点我回答这个问题的科学论文/书吗?
我的预感是因为 MLE 不假设噪声模型,并且经验 pdf 中的“噪声”是异方差且不正常的。
考虑这一点的一种有用方法是注意在某些情况下最小二乘法和 MLE 相同,例如估计随机元素具有正态分布的参数。所以实际上,不是(如您推测的那样)MLE 不假设噪声模型,而是假设存在随机噪声,但对它的形成方式而不是假设它采取了更复杂的观点具有正态分布。
任何关于统计推断的教科书都会涉及 MLE 在效率和一致性方面的良好特性(但不一定是偏差)。MLE 还具有在一组合理的条件下自身渐近正态的良好特性。