如何将模型拟合到 20 天内自我报告的朋友互动次数?

机器算法验证 r 分布 数据集
2022-04-10 05:38:22

我是统计学的新手,所以如果我做的事情从根本上是错误的,请纠正我。在与 R 搏斗了很长时间试图将我的数据拟合到一个良好的分布之后,我发现它符合具有以下参数的 Cauchy 分布:

   location      scale  
  37.029894   18.678936 
 ( 3.405665) ( 2.779136)

该数据来自一项调查,其中 100 人被问及他们在 20 天内与多少朋友交谈,我试图看看它是否符合已知分布。我用参考线生成了 QQ 图,它看起来像下面给出的图像。从我在网上阅读的内容来看,如果这些点靠近参考线,那么这是数据来自该分布的一个很好的证据。

那么,这是证明分布是 Cauchy 的一个很好的证据,还是我需要运行更多测试?如果是这样,有人可以告诉我这个结果的物理解释吗?我的意思是,我读到如果数据属于柯西分布,那么它不会有平均值和标准差,但有人可以用简单的英语帮助我理解这一点吗?如果它没有平均值,那么据我所知,我无法从这个分布中取样。应该根据这一结果推断出人口的什么?还是我应该看其他型号?

更新:我想达到什么目的? 我正在尝试评估一些任意信息对于 X 大小的人群传播需要多长时间。由于这取决于人们的交流模式,我试图做的是建立一个可以使用的模型来自我调查的 100 个人的信息,为我提供了 X 数字的模式,其中 X 可能是 500 或 1000。

QQ图

替代文字

我的数据的密度分布

替代文字

柯西分布

替代文字

尝试将正态分布拟合到我的数据时的 QQ 图 替代文字

更新:

从所有的建议中,我想我现在明白了为什么这不能是柯西分布。谢谢大家。@HairyBeast 建议我查看负二项分布,因此我也绘制了以下内容:

使用负二项分布时的 QQ 图

替代文字

负二项分布

替代文字

2个回答

首先,您的响应变量是离散的。柯西分布是连续的。其次,您的响应变量是非负的。具有您指定的参数的柯西分布将其质量的大约 1/5 置于负值上。无论您读到什么关于 QQ 范数图的内容都是错误的。接近线的点是正态性的证据,而不是支持柯西分布的证据(编辑:忽略最后两句话;使用了 QQ 柯西图 - 不是 QQ 范数图 - 很好。)泊松分布,用于对计数数据进行建模是不合适的,因为方差远大于平均值。二项分布也不合适,因为理论上,您的响应变量没有上限。我会研究负二项式分布。

最后一点,您的数据不一定必须来自众所周知的“命名”分布。它可能来自混合分布,或者可能具有“真实”分布,其质量函数不是 x 到 P(X=x) 的良好转换。不要太努力地“强制”分配数据。

同意 HairyBeast (+1) 的观点,即柯西在这里不合适(它是对称的一件事),负二项式可能会更好。

虽然不同意QQ情节。您可以为任何分布绘制 QQ 图,而不仅仅是正态分布。您对 QQ 图的解释是正确的,但请注意,您的 2 个点确实与直线相距甚远。

关于 Cauchy 缺少矩:这不影响采样。一旦您知道分布采样的参数,它就很容易(因为分位数函数具有封闭形式)并且缺少矩是无关紧要的。但柯西分布甚至没有均值这一事实确实表明它在这里是不合适的,因为很明显,询问一个人在 20 天内与之交谈的预期朋友数量是多少是有意义的。