将泊松分布转换为正态分布

机器算法验证 正态分布 数据转换 泊松分布
2022-03-13 07:55:07

我主要有计算机科学背景,但现在我正在尝试自学基本统计数据。我有一些我认为具有泊松分布的数据

在此处输入图像描述

我有两个问题:

  1. 这是泊松分布吗?
  2. 其次,是否可以将其转换为正态分布?

任何帮助,将不胜感激。非常感谢

2个回答

1) 所描绘的似乎是(分组的)连续数据绘制为条形图。

您可以非常有把握地得出结论,它不是泊松分布。

泊松随机变量取值 0, 1, 2, ... 并且仅当均值小于 1 时才在 0 处具有最高峰。它用于计数数据;如果您绘制类似的泊松数据图表,它可能如下图所示:

在此处输入图像描述

第一个是泊松,显示出与您类似的偏度。你可以看到它的平均值非常小(大约 0.6)。

第二个是泊松,其平均值与您的相似(粗略猜测)。如您所见,它看起来非常对称。

您可以有偏度或大均值,但不能同时具有两者。

2) (i) 你不能使离散数据正常——

对于分组数据,使用任何单调递增变换,您会将组中的所有值移动到同一位置,因此最低组仍将具有最高峰 - 请参见下图。在第一个图中,我们移动 x 值的位置以紧密匹配正常的 cdf:

在此处输入图像描述

在第二幅图中,我们看到了变换后的概率函数。我们无法真正实现像常态这样的东西,因为它既离散又偏斜;第一组的大跳将保持大跳,无论你向左推还是向右推。

(ii) 连续倾斜的数据可能会被转换为看起来相当正常。如果您有原始(未分组)值并且它们不是高度离散的,那么您可能会做一些事情,但即使这样,当人们寻求转换他们的数据时,这也不是不必要的,或者他们的潜在问题可以通过不同(通常更好)的方式来解决. 有时转换是一个不错的选择,但通常是出于不太好的原因。

那么……为什么要改造呢?

为后代发布更多有趣的信息。

有一篇较早的帖子讨论了关于将计数数据用作逻辑回归的自变量的类似问题。

这里是:

使用计数数据作为自变量是否违反任何 GLM 假设?

正如 Glen 所提到的,如果您只是试图预测二分结果,您可能能够使用未转换的计数数据作为逻辑回归模型的直接组成部分。但是,请注意:当自变量 (IV) 既是泊松分布并且使用原始值的范围超过多个数量级时,可能会产生高度影响的点,这反过来又会使您的模型产生偏差。如果是这种情况,对您的 IV 执行转换以获得更稳健的模型可能会很有用。

平方根或对数等变换可以增强 IV 和优势比之间的关系。例如,如果 X 的三个完整数量级的变化(远离 X 值中值)对应于 Y 发生概率的仅 0.1 变化(远离 0.5),那么可以很安全地假设任何模型差异都会由于异常值 X 值的极端杠杆作用导致显着偏差。

为了进一步说明,假设我们想使用各种辣椒的 Scoville 评级( domain[X] = {0, 320 万} )来预测一个人将辣椒归类为“令人不舒服的辣”的概率( range[Y] = {1 = 是,0 = 否}) 在吃了相应等级 X 的辣椒后。

https://en.wikipedia.org/wiki/Scoville_scale

如果您查看斯科维尔评级图表,您会看到原始斯科维尔评级的对数变换将使您更接近每种辣椒的主观(1-10)评级。

因此,在这种情况下,如果我们想要制作一个更稳健的模型来捕捉原始斯科维尔评级和主观热量评级之间的真实关系,我们可以对 X 值执行对数变换。通过这样做,我们减少了过大 X 域的影响,通过有效地“缩小”不同数量级的值之间的距离,从而减少任何 X 异常值的权重(例如那些辣椒素不耐受和/或疯狂的香料恶魔! !!) 有我们的预测。

希望这会增加一些有趣的背景!