机器学习背景下的“推理”和“估计”有什么区别?
作为一个新手,我觉得我们推断随机变量并估计模型参数。我这个理解对吗?
如果不是,究竟有什么区别,我应该什么时候使用哪个?
还有,哪个是“学”的同义词?
机器学习背景下的“推理”和“估计”有什么区别?
作为一个新手,我觉得我们推断随机变量并估计模型参数。我这个理解对吗?
如果不是,究竟有什么区别,我应该什么时候使用哪个?
还有,哪个是“学”的同义词?
统计推断是由人们可以从给定数据集和相关假设模型中得出的全部结论集合组成的,包括所述模型的拟合。引用维基百科,
推理是从已知或假定为真的前提中得出逻辑结论的行为或过程。
和,
统计推断使用数学在存在不确定性的情况下得出结论。
估计只是推理的一个方面,其中人们用基于数据(以及可能有关这些参数的先验信息)的最佳解决方案替换未知参数(与生成数据的假设模型相关)。它应该始终与对报告估计的不确定性的评估相关联,评估是推理的一个组成部分。
最大似然是估计的一个实例,但它并不涵盖整个推理。相反,贝叶斯分析提供了一个完整的推理机。
虽然估计本身旨在得出未知参数的值(例如,逻辑回归中的系数,或支持向量机中的分离超平面中的系数),但统计推断试图将不确定性的度量和/或概率陈述附加到参数值(标准误差和置信区间)。如果统计学家假设的模型大致正确,那么假设新的传入数据继续符合该模型,则不确定性陈述可能有一些真实性,并提供了一个衡量您在使用该模型时出错的频率模型来做你的决定。
概率陈述的来源是双重的。有时,可以假设您正在测量的任何东西的潜在概率分布,并使用一些数学巫术(高斯分布的多元积分等),获得结果的概率分布(高斯数据的样本均值本身就是高斯)。贝叶斯统计中的共轭先验属于巫术类别。其他时候,人们不得不依赖渐近(大样本)结果,该结果表明在足够大的样本中,事物必然会以某种方式表现(中心极限定理:数据的样本均值与均值相同和方差近似高斯,均值和方差与原始数据分布的形状无关)。
机器学习最接近这一点的是交叉验证,当样本被分成训练和验证部分时,后者有效地说,“如果新数据看起来像旧数据,但与被用于建立我的模型,那么错误率的现实度量就是这样那样”。它是通过在数据上运行相同的模型完全凭经验得出的,而不是试图通过做出统计假设并涉及任何数学结果(如上述 CLT)来推断模型的属性。可以说,这更诚实,但因为它使用的信息更少,因此需要更大的样本量。此外,它隐含地假设过程不会改变,
虽然“推断后验”这句话可能是有道理的(我不是贝叶斯主义者,我无法真正说出公认的术语是什么),但我认为在推理步骤中做出任何假设并没有太多涉及。所有的贝叶斯假设都是(1)先验和(2)假设模型,一旦建立,后验自动遵循(至少在理论上通过贝叶斯定理;实际步骤可能非常复杂,并且Sipps Gambling...对不起,Gibbs 采样可能是获得该后验的相对容易的组成部分)。如果“推断后验”是指(1)+(2),那么对我来说这是一种统计推断。如果(1)和(2)分开陈述,然后“推断后验”是另外一回事,那么我不'
这是为没有统计学背景的人提供答案的尝试。对于那些对更多细节感兴趣的人,有很多关于这个主题的有用参考资料(例如这个)。
简短的回答:
估计查找感兴趣主题的未知值(估计值)
统计推断使用感兴趣主题的概率分布得出概率结论
长答案:
术语“估计”通常用于描述为未知值找到估计值的过程,而“推断”通常指统计推断,即发现随机变量的分布(或特征)并使用它们得出结论的过程。
考虑回答以下问题:我国的普通人有多高?
如果您决定找到一个估计值,您可以四处走走几天,测量您在街上遇到的陌生人(创建一个样本),然后计算您的估计值,例如作为样本的平均值。你刚刚做了一些估计!
另一方面,您可能想要找到的不仅仅是一些估计,您知道这是一个单一的数字,而且肯定是错误的。您可以以一定的信心回答这个问题,例如:我有 99% 的把握,我的国家一个人的平均身高在 1.60m 到 1.90m 之间。
为了做出这样的声明,您需要估计您正在遇到的人的身高分布,并根据这些知识得出结论——这是统计推断的基础。
要记住的关键点(正如西安的回答所指出的那样)是找到估计量是统计推断的一部分。
假设您有一个具有代表性的总体样本。
推理是当您使用该样本来估计模型并声明结果可以以一定的准确性扩展到整个人群时。进行推断是对仅使用具有代表性的样本的总体进行假设。
估计是当您选择一个模型来拟合您的数据样本并以一定的精度计算该模型的参数时。之所以称为估计,是因为您永远无法计算参数的真实值,因为您只有一个数据样本,而不是整个总体。