柯西分布在某种程度上是“不可预测的”分布吗?

机器算法验证 分布 直觉 柯西分布
2022-01-26 00:26:29

柯西分布在某种程度上是“不可预测的”分布吗?

我试着做

cs <- function(n) {
  return(rcauchy(n,0,1))
}

在 R 中获取大量 n 值,并注意到它们偶尔会产生非常不可预测的值。

将其与例如

as <- function(n) {
  return(rnorm(n,0,1))
}

这似乎总是给出一个“紧凑”的点云。

通过这张照片,它应该看起来像正态分布?然而,它可能只适用于值的一个子集。或者诀窍是柯西标准差(在下图中)收敛得更慢(向左和向右),因此允许更严重的异常值,尽管概率很低?

https://i.stack.imgur.com/zGTLU.png

这里和普通的 rvs 一样,cs 是 Cauchy rvs。

在此处输入图像描述

但是由于异常值的极端,柯西 pdf 的尾部是否有可能永远不会收敛?

2个回答

虽然网站上的一些帖子涉及柯西的各种特性,但我没有找到一个真正将它们放在一起的帖子。希望这可能是收集一些的好地方。我可以扩展这个。

沉重的尾巴

虽然 Cauchy 是对称的并且大致呈钟形,有点像正态分布,但它的尾巴要重得多(而且“肩膀”更少)。例如,Cauchy 随机变量与中位数相差 1000 多个四分位距的概率很小但明显不同——与正常随机变量大致相同,即距中位数至少 2.67 个四分位距。

方差

柯西的方差是无限的。

编辑:JG 在评论中说它是未定义的。如果我们将方差作为值对之间平方距离的一半的平均值 - 这与两者都存在时的方差相同,那么它将是无限的。然而,按照通常的定义,JG 是正确的。[尽管如此,与随着 n 变大而不会真正收敛到任何东西的样本均值相比,样本方差的分布随着样本量的增加而不断增加;尺度与 n 成比例增加,或者等效地,对数方差的分布随样本量线性增长。考虑到产生无穷大的方差版本告诉我们一些事情似乎很有成效。]

当然存在样本标准偏差,但样本越大,它们往往越大(例如,n=10 时的中值样本标准偏差接近尺度参数的 3.67 倍(IQR 的一半),但在 n= 100 大约是 11.9)。

意思是

柯西分布甚至没有有限均值。均值的积分不收敛。结果,即使是大数定律也不适用——随着 n 的增长,样本均值不会收敛到某个固定数量(实际上它们没有什么可以收敛的)。

事实上,柯西分布的样本均值分布与单个观测值的分布相同(!)。尾巴太重了,以至于在总和中添加更多的值会使一个真正的极值很可能足以弥补在取平均值时除以更大的分母。

可预测性

您当然可以为柯西分布的观察结果生成完全合理的预测区间;有一些简单、相当有效的估计器可以很好地估计位置和规模,并且可以构建近似的预测区间——因此,至少从这个意义上说,柯西变量是“可预测的”。然而,尾巴延伸得很远,所以如果你想要一个高概率区间,它可能会很宽。

如果您试图预测分布的中心(例如在回归类型模型中),这在某种意义上可能相对容易预测;柯西的峰值非常高(对于典型的尺度测量,有很多分布“接近”中心),因此如果您有适当的估计器,则可以相对较好地估计中心。

这是一个例子:

我从与标准 Cauchy 误差(100 个观察值,截距 = 3,斜率 = 1.5)的线性关系生成数据,并通过三种对 y 异常值相当稳健的方法估计回归线:Tukey 3 组线(红色)、Theil 回归(深绿色)和 L1 回归(蓝色)。没有一个在 Cauchy 中特别有效——尽管它们都会为更有效的方法提供极好的起点。

然而,与数据的噪声相比,这三者几乎是一致的,并且非常接近数据运行的中心;从这个意义上说,柯西显然是“可预测的”。

对于任何一条线,绝对残差的中位数仅略大于 1(大部分数据非常接近估计线);在这个意义上,柯西也是“可预测的”。

与柯西误差和三个拟合回归线的线性关系

对于左边的情节,有一个很大的异常值。为了更好地查看数据,我缩小了右侧 y 轴上的比例。

不,Cauchy 分布是一个非常可预测的分布,因为分位数定义明确。如果您知道定义明确的样本量来看,观察将出现在任意两点之间的位置概率。然而,虽然 50% 的数据将出现在中,但中心 99.95% 的数据将出现在中。μσnμ±σμ±636.62σ

另外,不是标准差;它是一个比例参数。没有定义的平均值,所以更高的时刻也不存在。人们常说,均值和方差是无限的,并且在一个几乎为真的积分定义下,但在对积分的另一种理解中,它们根本不存在。您可能想将方差或均值视为某些分布具有的属性,而其他分布则没有。正如鼻子是脊椎动物的特性一样,如果你看到一棵有鼻子的树,那么它就不是一棵树。如果您看到具有方差的分布,则它不是柯西分布。σ

柯西分布在本质上看起来相当多,特别是在你有某种形式的增长的地方。它也出现在物体旋转的地方,例如从山上滚下来的岩石。你会发现它是股票市场回报中丑陋的混合分布的核心分布,尽管不是在拍卖中出售的古董之类的回报中。古董的回报也属于没有均值或方差的分布,但不是柯西分布。差异是由拍卖规则的差异造成的。如果你改变纽约证券交易所的规则,那么柯西分布就会消失,并且会出现一个不同的分布。

要了解为什么它通常会出现,假设您是大量投标人和潜在投标人中的一个投标人。因为股票是在双重拍卖中出售的,所以赢家的诅咒不适用。在均衡中,理性行为是出价你的期望值。期望是均值的一种形式。随着样本量趋于无穷大,平均估计值的分布将收敛到正态性。

因此,如果公司不会破产或在合并中被收购,价格将在没有流动性成本(存在)的情况下呈正态分布。如果股票数量不变,那么在时间 t 的投资回报为这使它成为两个正态分布的比率。如果整合发生在均衡价格附近,而不是在 (0,0) 处,您将得到截断的柯西分布。如果您将 20 世纪的收益分解为单个交易,您会发现,一旦去除合并、流动性成本和破产,截断的 Cauchy 与实际观察到的收益非常接近。

rt=pt+1pt

如果人们认为股市应该具有正态或对数正态分布,那么这会使股市非常波动,但如果您预期会有重尾,则不会出乎意料地波动。

我已经为柯西分布构建了贝叶斯和频率预测分布,并给出了他们的假设,它们运行良好。贝叶斯预测最小化了 Kullback-Leibler 散度,这意味着对于给定的数据集,它在预测中尽可能接近自然。频率派预测最小化了来自许多独立样本的许多独立预测的平均Kullback-Leibler 散度。但是,对于任何一个样本来说,它不一定表现得很好,正如人们所期望的那样,具有平均覆盖率。尾部确实会聚,但它们会聚得很慢。

多元柯西具有更令人不安的特性。例如,虽然它显然不能协变,因为没有均值,但它与协方差矩阵没有任何相似之处。如果系统中没有发生任何其他事情,柯西误差始终是球形的。此外,虽然没有什么是协变的,但也没有什么是独立的。要了解这在实际意义上可能有多重要,请想象两个都在增长并相互贸易的国家。一个错误并不独立于另一个错误。我的错误会影响你的错误。如果一个国家被一个疯子接管,那么那个疯子的错误就会无处不在。另一方面,由于协方差矩阵的影响不是线性的,因此其他国家可以切断关系以最小化影响。

这也是特朗普的贸易战如此危险的原因。继欧盟通过与其他单一经济体进行贸易战后,世界第二大经济体通过向其宣战国家借钱来为这场战争提供资金。如果这些依赖关系被迫解除,那将是丑陋的,没有人记得。自英格兰银行对大西洋贸易实施禁运的杰克逊政府以来,我们还没有遇到过类似的问题。

柯西分布很吸引人,因为它出现在指数和 S 曲线生长系统中。它们使人们感到困惑,因为他们的日常生活充满了具有均值且通常具有差异的密度。它使决策变得非常困难,因为吸取了错误的教训。