为什么我们看不到 Copula 模型和回归模型一样多?

机器算法验证 r 可能性 马尔可夫链蒙特卡罗 联合分配 系词
2022-01-18 08:08:19

是否有任何理由看不到 Copula 模型,因为我们看到回归模型(例如https://en.wikipedia.org/wiki/Vine_copulahttps://en.wikipedia.org/wiki/Copula_(probability_theory) ) ?

在过去的几个月里,我一直在随意阅读 Copulas 的应用程序。据我了解,Copulas 允许您为多个变量创建联合概率分布——并且这些变量中的每一个都不需要具有相同的边缘概率分布类别。例如:可以使用 Copula 创建变量 X1 和 X2 的联合概率分布,其中 X1 是正态分布,X2 是指数分布。据称,这对于模拟不完全符合“同质和共同”概率分布的复杂和不规则的现实世界现象非常有用。

在应用方面,我听说 Copula 模型(即 Copula 模型产生的联合概率分布)可用于涉及因果推理和预测建模的不同任务。由于 Copula 模型毕竟是联合概率分布,我们可以使用 MCMC Sampling 从相关的条件概率分布中生成随机样本——而这些随机生成的样本从所需条件分布中的均值和方差可以被认为是“预测值" 用于新的观察(有效地发挥回归模型的作用)。

我读过 Copula 模型经常在金融行业中用于对金融市场中的相关性和风险进行建模,以及在生存分析中使用它们来建模生存时代的依赖关系的实例——但除此之外,它们似乎几乎没有与标准回归模型一样广泛。

我的问题:有谁知道这是为什么?

  • 关于为什么与回归模型相比,Copula 模型不那么普遍,我的第一个猜测是,与回归模型相比,Copula 所需的框架和数学可以说要复杂得多。因此,由于理解 Copula 模型所需的数学复杂性,它们的潜在好处从未完全实现。

  • 关于为什么与回归模型相比,Copula 模型不那么普遍,我的第二个猜测是,与回归模型相比,Copula 模型的软件实现要少得多。例如,我看到了一些流行的可用于 Copula 模型的 R 包(例如https://cran.r-project.org/web/packages/copula/copula.pdfhttps://cran.r-project 。 _ _ _很多关于如何使用 Copulas 进行预测的内容(在与使用回归模型相同的上下文中)。我遇到了一个允许拟合条件 Copulas 的 R 包(例如https://cran.r-project.org/web/packages/CDVineCopulaConditional/index.html),但这个包要求您根据您的规范为数据拟合一个新的条件 Copula 似乎很奇怪 - 并且不允许您可以从现有的 Copula 生成随机样本。

那么,我的评价合理吗?这些能否部分解释为什么 Copula 模型不像传统的回归模型那样普遍?

有人可以对此发表评论吗?

3个回答

第一个也是最重要的原因是标准回归模型在 copula 模型上领先一到 200 年(具体取决于您计算回归模型和 copula 模型的起源的确切位置)。任何解释都是使用上的差异必须从那里开始。

通过数据拟合函数的最小二乘估计方法是在 19 世纪初由勒让德和高斯开发的,高斯-马尔可夫定理由高斯于 1821 年发表。到 19 世纪后期,“回归”一词已进入用于描述回归均值的狭隘现象,但它在 19 世纪末得到了进一步发展,其形式显然是现代理论的先驱。特别是,Yule 在Yule (1897)中给出了现代回归模型的前身,Fisher 开发并分析了不迟于Fisher (1922)今天使用的标准高斯回归模型。

相反,copulas 在Sklar (1959)中首次被引入到统计学中,并在后来的几十年里得到了进一步的发展。支撑该领域的最初数学结果是十多年来的“民间定理”,直到 1970 年代多位作者证明了这一点。第一次研究 copula 的统计会议直到 1990 年才出现,即使在此之后,copula 也只是真正应用于金融领域。直到 21 世纪之交Li (2000)在一篇关于金融的开创性文章中普及了它们。可能只是在过去的两到三十年里,即使在统计专业中,copula 才广为人知。正如您所指出的,copula 理论在数学上更复杂,但它也年轻得多。

统计理论和模型往往从仅限于该领域学者的狭隘使用开始,然后——如果它们具有足够的价值——它们会扩展到更广泛的应用领域中的各种专业人士使用。直到它们在专业中得到足够广泛的应用,大学才认为值得在常规课程中教授这些模型。在目前的情况下,copula 模型大约有 20 年的历史,并且它们可能只是在过去十年中才开始在大学中教授(在一些大学中甚至还没有)。你只需要回到大约十年前,大学里的统计学专业的学生甚至不会听说过 copula 模型(除非他们把它们当作专业),也不会有任何课程来教授它。

因此,如果您是一名统计学家/计量经济学家并且您已超过 40 岁,那么您可能不会了解 copula 模型,除非您在大学教育之外亲自走出去自学它。但是,您将至少上过几门涵盖回归建模、GLM 等的课程,并且您必须以学生身份定期实施这些模型才能完成学位。如果你是四十多岁的心理学家或科学家,你几乎可以肯定从未学过 copula 模型,但你可能会在大学培训中遇到回归模型。这对两个模型在后续专业工作中各自的使用水平产生了巨大的影响。

一个简短的回答是,在许多应用程序的实践中,我们不需要联合概率分布。愤世嫉俗的人会说这也是因为用户不了解什么是联合概率分布。统计建模的许多应用都在推理中,例如医学研究,他们对导致某些结果的原因感兴趣。回归是用于执行此操作的工具之一。在许多情况下的预测应用程序中,用户希望进行情景分析,即“当输入为 x 时,y 是多少?” - 这些预先指定了 x,不需要从它们的关节中取样。

另一方面,copulas在金融风险管理(FRM)等领域被大量使用,以获得因子的联合分布。我将向您展示一个示例,以帮助我回答您的问题。

在 FRM 中,您需要获得单变量概率分布Fy(y)标量损失y. 这是您可以做到的一种方法。

  1. 地图损失y风险因素向量x
  2. 估计一个模型y=L(x)+ε,也许,有一个回归
  3. 估计因子的连接分布F^x(x), 也许, 与 copulas
  4. 样本来自F^x(.)获得一组向量xi
  5. 估计单变量概率分布F^y(y)通过拟合损失y^i=L^(xi)

一旦你有F^y(.)您可以获得所需的所有风险指标。

你看我在这里是如何使用回归和 copula 的。所以,正如我之前提到的,在业务预测中,我们的模型用户只对y^|x,即“什么是y当输入是x?” 在这种情况下,就像在推理应用中一样,我们根本不需要联合分布和 copula!我们只需要 [regression] 模型L^,我们可以指定x.

FRM 是我们无法指定的字段之一x在很多情况下。我们试图获得它们的联合分布Fx. 这就是 copula 有用的地方

一个原因可能是回归和 copula没有回答同一个问题Copulas 是关于联合分布,而回归是关于条件分布或仅仅是条件均值,这取决于你如何看待它。

是的,copula在某种意义上更通用,因为您可以从中得出回归函数。但除了最琐碎的情况外,这将是一个相当复杂的练习,不会给出封闭式的答案。然后,为了能够“看到”任何东西或对条件分布或条件均值函数有一些直觉,您需要从 copula 进行模拟。而且您并不总是拥有方便的硬件和软件。

另一方面,回归对条件均值问题给出了非常直接的答案。它提供了一个更容易理解并且更容易在您的脑海中形象化的解决方案。*

因此,出于回归(条件分布、条件均值)的目的,回归容易使用。并且出于 copulas(联合分布)的目的,回归不能代替 copulas。但显然对联合分配的兴趣并不那么普遍?(我以问号结束,因为我不确定是兴趣有限还是我们的设备不足/太复杂。)

对于Ben的回答指出历史原因最重要的,我想知道是否是这样。试图想象如果 copula 和回归同时开始会发生什么,我仍然看到回归因其相对简单以及广泛的任务(条件分布和/或条件均值的建模)的充分性而赢得了人气之战相关的。

*我说更容易更容易,这并不意味着容易