只有两个分布和的混合模型可以被认为具有密度,其中。现在因为它不再是混合物。一般来说,对于任何混合分布,都可以使用软件来找到最佳混合模型,例如Mathematica 中的FindDistribution或@omidi建议的 R 中的 mixtools。但是,在 OP 给出的情况下,分布之间没有重叠,因为零薪水不是薪水。不需要特别在收入上加一来取对数,因为不需要取对数。相反,所有需要做的就是分配一个狄拉克D1D2pD1+(1−p)D20<p<1p≠0,1δ对于,工资为零,即,然后找到和。找到很简单,因为,其中和分别是有收入和没有收入的受试者的数量。为有收入的人寻找最佳分布可以使用软件或先前的文献来搜索模型。然而,即便如此,那些有收入的分配,,本身也可以是混合分配。此外,使用经验分布D1pδ(x=0)+(1−p)D2pD2pp=NnoNno+NyesNyesNnoD2可能足以回答 OP 需要回答的一些问题,虽然有一个理论分布很好,但并不是绝对需要的。
也就是说,最终分布可能是,其中 . 需要明确的是,该公式与数据相同,因为经验分布是。pδ(0)+(1−p)DEmp(x)p=NnoNno+Nyesδ(xi)Nyes
其他问题:“......将其中一个 [ Sic , Gaussian 分布] 的平均值设置为等于 0。” 这就是狄拉克δ(0)是什么;尽管用于创建它的第一个分布在历史上是 Cauchy,但限制一个用于创建的分布几乎没有区别,因为它的标准偏差为零。关于对第二个分布使用高斯分布,这不是一个好主意,因为收入的右尾非常重,例如,参见帕累托分布。如果需要在 R 中为有收入的人提供 OP 数据的理论分布,请参阅此。δ
最后,我不完全理解“另一个问题可能是我总是使用回归预测收入并从中建立排名,而不是运行序数回归。处理这种情况的最佳方法是什么 - 如果目标变量 (收入)排名所依据的数据本身是否可用于训练数据?”
如果希望使用回归来预测收入,则可能需要转换变量,但的任何转换都不会有“好的”残差。也就是说,残差不会是高斯或同方差的,因此通常的默认回归技术不会产生准确的答案。也许处理这个问题的方法是使用分类器来找到找到具有是/否 Y 轴变量的工作的概率,如果是,则使用找出该薪水是非零薪水的最佳理论分布。也就是说,然后可以使用分类器来确定非零薪水的预测变量,当完成时,一个人有两种情况,即找到工作的预测变量,以及如果一个人获得职位的薪水预测变量。pδ(0)+(1−p)DEmp(x)glm