如何组合回归模型?

机器算法验证 回归 多重回归 集成学习 聚合
2022-03-10 00:01:58

假设我有三个大小的数据集n每个:

y1= 仅来自美国的人的身高

y2= 全世界男人的高度

y3= 全世界女性的身高

我为每个因素建立了一个线性模型xi,i=1,...,k

y^j=β0+β1x1+β2x2+ϵj

ϵ具有 OLS 的通常属性。我可能会使用一个因素xi在不止一次回归中。


我的问题是:我如何结合回归,以便获得以下估计:

y12= 仅限美国男性的身高

y13= 仅限美国女性的身高

我没有数据


我想到了某种加权:

y^12=w1y^1+(1w1)y^2

但后来我不知道该用来做什么w1.

1个回答

目前尚不清楚您是想要估计每个男人和女人的身高(更多的是分类问题)还是描述每个性别的身高分布。我将假设后者。您也没有指定您在模型中使用的其他信息,因此我将仅限于解决您只有身高数据(以及性别数据,如果是非美国公民)的情况。

我建议仅将混合分布拟合到来自美国的身高数据,因为男性和女性的身高分布相当不同。这将估计两个分布的参数,当它们相加时最能描述数据的变化。这些分布的参数(均值和方差,因为高斯分布应该可以正常工作)为您提供所需的信息。R 打包mixtoolsmixdist让您执行此操作;我敢肯定还有更多。

这个解决方案可能看起来很奇怪,因为它忽略了你在美国以外的所有信息,你知道每个人的性别和身高。但我认为这是合理的,因为:

1)我们有一个非常强烈的先前期望,即男性平均高于女性。维基百科的全球平均人类身高列表显示,甚至没有一个国家或地区女性比男性高。因此,具有较大平均高度的分布的同一性并没有真正的疑问。

2) 整合来自非美国数据的更具体信息可能涉及假设性别和身高之间的协方差在美国以外与美国国内相同。但这并不完全正确 -同一个维基百科列表表明男性与女性身高的比例在大约 1.04 和 1.13 之间变化。

3)您的国际数据分析起来可能要复杂得多,因为不同国家的人的身高分布也有很大差异。因此,您可能需要考虑对分布混合的混合建模。这在美国也可能是正确的,但与包含荷兰人(平均身高:184 厘米)和印度尼西亚人(平均身高:158 厘米)的数据集相比,问题可能更小。这些是国家层面的平均值;亚群的差异程度相当。