我想知道最大似然估计是否曾经在统计中使用过。我们学习了它的概念,但我想知道它何时实际使用。如果我们假设数据的分布,我们会找到两个参数,一个是均值,一个是方差,但是您真的在实际情况中使用它吗?
有人能告诉我一个简单的例子吗?
我想知道最大似然估计是否曾经在统计中使用过。我们学习了它的概念,但我想知道它何时实际使用。如果我们假设数据的分布,我们会找到两个参数,一个是均值,一个是方差,但是您真的在实际情况中使用它吗?
有人能告诉我一个简单的例子吗?
我想知道最大似然估计是否曾经在统计中使用过。
当然!实际上很多——但并非总是如此。
我们学习了它的概念,但我想知道它何时实际使用。
当人们有一个参数分布模型时,他们经常选择使用最大似然估计。当模型正确时,最大似然估计器有许多方便的属性。
举一个例子——广义线性模型的使用非常普遍,在这种情况下,描述平均值的参数是通过最大似然估计的。
可能会发生某些参数是通过最大似然估计的,而其他参数不是。例如,考虑过度分散的泊松 GLM——分散参数不会通过最大似然估计,因为在这种情况下 MLE 没有用。
如果我们假设数据的分布,我们会找到两个参数
嗯,有时你可能有两个,但有时你有一个参数,有时是三个或四个或更多。
一个代表平均值,一个代表方差,
您是否正在考虑某个特定的模型?这并非总是如此。考虑估计指数分布或泊松分布或二项分布的参数。在每种情况下,都有一个参数,方差是描述均值的参数的函数。
或者考虑具有三个参数的广义伽马分布。或者是一个四参数的 beta 分布,它有(也许并不奇怪)四个参数。还要注意(取决于特定的参数化)均值或方差或两者可能不是由单个参数表示,而是由其中几个参数表示。
例如,伽马分布,其中有三个参数化使用相当普遍——其中最常见的两个参数的均值和方差都是两个参数的函数。
通常在回归模型或 GLM 或生存模型(在许多其他模型类型中)中,模型可能依赖于多个预测变量,在这种情况下,与模型下的每个观察相关的分布可能具有其自己的参数之一(或甚至几个参数)与许多预测变量(“自变量”)相关。
尽管考虑到数据分布的假设,最大化似然估计量看起来很可疑,但通常使用准最大似然估计量。这个想法是首先假设一个分布并求解 MLE,然后删除显式分布假设,而是查看您的估计器在更一般的条件下的表现。因此,准 MLE 只是成为获取估计器的一种聪明方法,然后大部分工作就是推导估计器的属性。由于放弃了分布假设,但准 MLE 通常不具有良好的效率属性。
作为一个玩具示例,假设您有一个 iid 样本方差的估计器。您可以先假设,使用普通 pdf 写出似然性,然后求解 argmax 得到。然后我们可以问一些问题,例如在什么条件下是一致的估计量,它是否无偏(不是),它是否根 n 一致,它的渐近分布是什么等。
机器学习中经常使用最大似然估计来训练:
请注意,在某些情况下,人们更喜欢添加一些正则化,这有时相当于最大后验估计,例如为什么 Lasso 惩罚等同于双指数(拉普拉斯)先验?.
有人能告诉我一个简单的例子吗?
一个非常典型的案例是逻辑回归。逻辑回归是机器学习中常用的一种技术,用于对数据点进行分类。例如,逻辑回归可用于分类电子邮件是垃圾邮件还是非垃圾邮件,或者分类一个人是否患有疾病。
具体来说,逻辑回归模型表示数据点属于第 1 类的概率如下:
通常使用 MLE 估计参数向量
具体来说,使用优化方法,我们找到估计器使得表达式被最小化。这个表达式是负对数似然,所以最小化这个等于最大化似然。