这个问题可能太天真了,但我需要明白这一点。假设我对 1000 个人的产品进行了调查,并收集了它各个方面的数据。假设类别是 X1、X2、X3、X4、X5 和 X6。
所以,现在我有 6 个变量。我想知道样本分布的类型。
我的问题是如何知道这个样本的分布。
这个问题可能太天真了,但我需要明白这一点。假设我对 1000 个人的产品进行了调查,并收集了它各个方面的数据。假设类别是 X1、X2、X3、X4、X5 和 X6。
所以,现在我有 6 个变量。我想知道样本分布的类型。
我的问题是如何知道这个样本的分布。
您的问题没有单一的答案,但您可以将这六个分布近似为不同程度的准确度。您应该做的第一件事是使用直方图(R 中的 hist())或核密度估计(density())绘制它们。它应该让您了解哪些参数族(指数、正态、对数正态......)可能为您提供合理的拟合。如果有,您可以继续估计参数。
我个人认为这是一个糟糕的主意。如果您知道您的数据来自某个分布,您可能会说一些有意义的事情。您可能有 0/1 响应,因此分布是二项式的,可能以其他一些协变量为条件——这是一个逻辑回归。您可能有计数,因此分布是泊松,可能以其他一些协变量为条件——即泊松或零膨胀泊松或负二项式回归。然而,通常只是偷看数据并试图确定分布很少会产生好的结果。
告诉我们您的最终分析目标可能有助于建议一些更好的路线。您想模拟来自类似分布的新数据吗?您想为某些分布提供易于计算的分析摘要吗?(我见过人们对收入数据拟合对数正态曲线,以报告基尼系数。)你想将你的结果与其他人的结果进行比较吗?
此外,请记住,小样本(比如 100 以下)将与许多可能的分布兼容。仅具有正值的分布可以用伽马、对数正态、贝塔或皮尔逊家族表示,仅根据数据根本无法区分它们。另一方面,大样本(比如超过 10000 个)不会与任何东西兼容,因为现实生活比我们对它的假设要丰富。