“非参数统计模型”的真实例子是什么?

机器算法验证 非参数 模型
2022-01-24 17:22:31

我在这里阅读关于统计模型的维基百科文章,我对“非参数统计模型”的含义有些困惑,特别是:

如果参数集的统计模型是非参数的Θ 是无限维的。如果统计模型同时具有有限维和无限维参数,则它是半参数的。形式上,如果d是维度Θn是样本数,半参数和非参数模型都有d作为n. 如果d/n0 作为n,则模型是半参数的;否则,模型是非参数的。

我知道如果模型的维度(我认为它的字面意思是参数的数量)是有限的,那么这是一个参数模型。

对我来说没有意义的是,我们如何才能拥有一个具有无限数量参数的统计模型,以便我们将其称为“非参数”。此外,即使是这样,为什么“非”,如果实际上有无数个维度?最后,由于我是从机器学习背景来的,这种“非参数统计模型”和“非参数机器学习模型”之间有什么区别吗?最后,这种“非参数无限维模型”的具体例子是什么?

3个回答

正如 Johnnyboycurtis 所回答的那样,非参数方法是指不假设总体分布或样本量来生成模型的方法。

k-NN 模型是非参数模型的一个示例,因为它不考虑任何假设来开发模型。朴素贝叶斯或 K-means 是参数化的一个示例,因为它假设用于创建模型的分布。

例如,K-means 假设以下来开发模型所有集群都是球形的(iid Gaussian)。所有轴具有相同的分布,因此具有方差。所有集群的大小都是均匀的。

至于k-NN,它使用完整的训练集进行预测。它从测试点计算最近的邻居以进行预测。它假定没有用于创建模型的分布。

欲了解更多信息:

  1. http://pages.cs.wisc.edu/~jerryzhu/cs731/stat.pdf
  2. https://stats.stackexchange.com/a/133841/86202
  3. https://stats.stackexchange.com/a/133694/86202

我目前正在学习机器学习课程,我们使用以下非参数模型的定义:“非参数模型的复杂性随着数据的大小而增加”。

参数模型

要了解它的含义,让我们看一下线性回归,一个参数模型:我们尝试预测一个参数化的函数wd

f(x)=wTx
w 的维数与观察次数或数据大小无关

非参数模型

相反,内核回归尝试预测以下函数:

f(x)=i=1nαik(xi,x)
我们在哪里n数据点,αi是权重和k(xi,x)是核函数。这里参数个数αi取决于数据点的数量n.

核化感知器也是如此:

f(x)=sign(i=1nαiyik(xi,x)))

让我们回到你的定义,说 d 是αi. 如果我们让n然后d. 这正是维基百科定义所要求的。

我从演讲幻灯片中获取了内核回归函数,并从维基百科获取了内核化感知器函数: https ://en.wikipedia.org/wiki/Kernel_method

所以,我认为你遗漏了几点。首先,也是最重要的,

如果统计方法不对总体分布或样本量做出假设,则称为非参数统计方法。

这是一些非参数模型的简单(应用)教程: http ://www.r-tutor.com/elementary-statistics/non-parametric-methods

研究人员可能决定使用非参数模型与参数模型,例如,非参数回归与线性回归,是因为数据违反了参数模型的假设。由于您来自 ML 背景,我假设您从未学习过典型的线性回归模型假设。这是一个参考:https ://statistics.laerd.com/spss-tutorials/linear-regression-using-spss-statistics.php

违反假设可能会扭曲您的参数估计,并最终增加得出无效结论的风险。非参数模型对异常值、非线性关系更稳健,并且不依赖于许多人口分布假设,因此在尝试进行推断或预测时可以提供更值得信赖的结果。

对于非参数回归的快速教程,我推荐这些幻灯片: http ://socserv.socsci.mcmaster.ca/jfox/Courses/Oxford-2005/slides-handout.pdf