机器算法验证 - 按未来收入对本科生进行排名 - 混合分布 - 吾爱随笔录

按未来收入对本科生进行排名 - 混合分布

机器算法验证回归序数数据排行混合分布

2022-04-09 17:22:25

对于如何使用 R 建模混合分布的一些建议，我将不胜感激。

鉴于在完成学业后按年收入创建研究生排名的问题，有哪些适合此任务的模型？

具体来说，我的数据具有点质量为 0 的分布（大多数毕业生没有立即找到或开始全职工作）。其余的数据分布得很好。数据被转换。 $x$ $\log(x+1)$ 直方图

我的第一种方法是一个简单的回归模型
我的第二种方法是两个模型（一个用于分类他们是否找到工作 - 非常弱，第二个用于预测收入）简单地链接这两个模型比简单模型效果差得多。

我的下一步将是预测收入的贝叶斯混合模型。我正在考虑用 2 个高斯拟合混合，我将其中一个的平均值设置为等于 0。这有意义吗？有没有人对一些包裹有很好的经验？

另一个问题可能是我总是使用回归预测收入并从中建立排名，而不是运行序数回归。处理这种情况的最佳方法是什么 - 如果排名所基于的目标变量（收入）本身可用于训练数据？

全面披露：这是一个虚构的场景，因为我无法讨论真实案例的确切细节。

1个回答

只有两个分布和的混合模型可以被认为具有密度，其中。现在因为它不再是混合物。一般来说，对于任何混合分布，都可以使用软件来找到最佳混合模型，例如Mathematica 中的FindDistribution或@omidi建议的 R 中的 mixtools。但是，在 OP 给出的情况下，分布之间没有重叠，因为零薪水不是薪水。不需要特别在收入上加一来取对数，因为不需要取对数。相反，所有需要做的就是分配一个狄拉克 $D_1$ $D_2$ $p D_1+(1-p) D_2$ $0<p<1$ $p\neq0,1$ $\delta$ 对于，工资为零，即，然后找到和。找到很简单，因为，其中和分别是有收入和没有收入的受试者的数量。为有收入的人寻找最佳分布可以使用软件或先前的文献来搜索模型。然而，即便如此，那些有收入的分配，，本身也可以是混合分配。此外，使用经验分布 $D_1$ $p \delta(x=0) +(1-p)D_2$ $p$ $D_2$ $p$ $p=\frac{N_{no}}{N_{no}+N_{yes}}$ $N_{yes}$ $N_{no}$ $D_2$ 可能足以回答 OP 需要回答的一些问题，虽然有一个理论分布很好，但并不是绝对需要的。

也就是说，最终分布可能是，其中 . 需要明确的是，该公式与数据相同，因为经验分布是。 $p \delta(0) +(1-p)D_{Emp}(x)$ $p=\frac{N_{no}}{N_{no}+N_{yes}}$ $\frac{\delta(x_i)}{N_{yes}}$

其他问题：“......将其中一个 [ Sic , Gaussian 分布] 的平均值设置为等于 0。” 这就是狄拉克 $\delta(0)$ 是什么；尽管用于创建它的第一个分布在历史上是 Cauchy，但限制一个用于创建的分布几乎没有区别，因为它的标准偏差为零。关于对第二个分布使用高斯分布，这不是一个好主意，因为收入的右尾非常重，例如，参见帕累托分布。如果需要在 R 中为有收入的人提供 OP 数据的理论分布，请参阅此。 $\delta$

最后，我不完全理解“另一个问题可能是我总是使用回归预测收入并从中建立排名，而不是运行序数回归。处理这种情况的最佳方法是什么 - 如果目标变量 (收入）排名所依据的数据本身是否可用于训练数据？”

如果希望使用回归来预测收入，则可能需要转换变量，但的任何转换都不会有“好的”残差。也就是说，残差不会是高斯或同方差的，因此通常的默认回归技术不会产生准确的答案。也许处理这个问题的方法是使用分类器来找到找到具有是/否 Y 轴变量的工作的概率，如果是，则使用找出该薪水是非零薪水的最佳理论分布。也就是说，然后可以使用分类器来确定非零薪水的预测变量，当完成时，一个人有两种情况，即找到工作的预测变量，以及如果一个人获得职位的薪水预测变量。 $p \delta(0) +(1-p)D_{Emp}(x)$ glm

其它你可能感兴趣的问题

上一篇如何在具有均匀最近邻距离的球体体积中生成随机点下一篇为自适应学习选择适当难度的问题