按未来收入对本科生进行排名 - 混合分布

机器算法验证 回归 序数数据 排行 混合分布
2022-04-09 17:22:25

对于如何使用 R 建模混合分布的一些建议,我将不胜感激。

鉴于在完成学业后按年收入创建研究生排名的问题,有哪些适合此任务的模型?

具体来说,我的数据具有点质量为 0 的分布(大多数毕业生没有立即找到或开始全职工作)。其余的数据分布得很好。数据被转换xlog(x+1)直方图

  • 我的第一种方法是一个简单的回归模型
  • 我的第二种方法是两个模型(一个用于分类他们是否找到工作 - 非常弱,第二个用于预测收入)简单地链接这两个模型比简单模型效果差得多。

我的下一步将是预测收入的贝叶斯混合模型。我正在考虑用 2 个高斯拟合混合,我将其中一个的平均值设置为等于 0。这有意义吗?有没有人对一些包裹有很好的经验?

另一个问题可能是我总是使用回归预测收入并从中建立排名,而不是运行序数回归。处理这种情况的最佳方法是什么 - 如果排名所基于的目标变量(收入)本身可用于训练数据?

全面披露:这是一个虚构的场景,因为我无法讨论真实案例的确切细节。

1个回答

只有两个分布的混合模型可以被认为具有密度,其中现在因为它不再是混合物。一般来说,对于任何混合分布,都可以使用软件来找到最佳混合模型,例如Mathematica 中的FindDistribution@omidi建议的 R 中的 mixtools。但是,在 OP 给出的情况下,分布之间没有重叠,因为零薪水不是薪水。不需要特别在收入上加一来取对数,因为不需要取对数。相反,所有需要做的就是分配一个狄拉克D1D2pD1+(1p)D20<p<1p0,1δ对于,工资为零,即,然后找到找到很简单,因为,其中分别是有收入和没有收入的受试者的数量。为有收入的人寻找最佳分布可以使用软件或先前的文献来搜索模型。然而,即便如此,那些有收入的分配,,本身也可以是混合分配此外,使用经验分布D1pδ(x=0)+(1p)D2pD2pp=NnoNno+NyesNyesNnoD2可能足以回答 OP 需要回答的一些问题,虽然有一个理论分布很好,但并不是绝对需要的。

也就是说,最终分布可能是,其中 . 需要明确的是,该公式与数据相同,因为经验分布是pδ(0)+(1p)DEmp(x)p=NnoNno+Nyesδ(xi)Nyes

其他问题:“......将其中一个 [ Sic , Gaussian 分布] 的平均值设置为等于 0。” 这就是狄拉克δ(0)是什么;尽管用于创建它的第一个分布在历史上是 Cauchy,但限制一个用于创建的分布几乎没有区别,因为它的标准偏差为零。关于对第二个分布使用高斯分布,这不是一个好主意,因为收入的右尾非常重,例如,参见帕累托分布如果需要在 R 中为有收入的人提供 OP 数据的理论分布,请参阅δ

最后,我不完全理解“另一个问题可能是我总是使用回归预测收入并从中建立排名,而不是运行序数回归。处理这种情况的最佳方法是什么 - 如果目标变量 (收入)排名所依据的数据本身是否可用于训练数据?”

如果希望使用回归来预测收入,则可能需要转换变量,但的任何转换都不会有“好的”残差。也就是说,残差不会是高斯或同方差的,因此通常的默认回归技术不会产生准确的答案。也许处理这个问题的方法是使用分类器来找到找到具有是/否 Y 轴变量的工作的概率,如果是,则使用找出该薪水是非零薪水的最佳理论分布。也就是说,然后可以使用分类器来确定非零薪水的预测变量,当完成时,一个人有两种情况,即找到工作的预测变量,以及如果一个人获得职位的薪水预测变量。pδ(0)+(1p)DEmp(x)glm