当您拥有基于具有不同样本量的组平均值的预测变量时,您可以做什么?

机器算法验证 回归 测量误差 变量错误
2022-03-03 23:48:45

考虑一个有结果的经典数据分析问题Yi以及它与许多预测变量的关系Xi1,...,Xip. 这里考虑的基本应用类型是

  1. Yi是一些群体层面的结果,例如城市的犯罪率i.

  2. 预测变量是群体级别的特征,例如城市的人口统计特征i.

基本目标是拟合回归模型(可能具有随机效应,但现在忘记了):

E(Yi|Xi)=β0+β1Xi1+...+βpXip

当一个(或多个)预测变量是每个单元具有不同样本量的调查的结果时,是否会出现一些技术难题?例如,假设Xi1是城市的总分i这是来自城市的个人样本的平均响应i但是这些平均值所基于的样本量却大相径庭:

CitySample size120210033004553

由于在某种意义上,对于每个城市,预测变量并不都具有相同的含义,我担心在回归模型中对这些变量进行调节,就好像它们都是“生而平等”的,可能会导致一些误导性的推论。

这类问题有名称吗?如果是这样,是否有研究如何处理这个问题?

我的想法是将其视为一个有误差测量的预测变量,并沿着这些思路做一些事情,但测量误差存在异方差性,所以这将非常复杂。我可能会以错误的方式思考这个问题,或者可能会使事情变得更复杂,但这里的任何讨论都会有所帮助。

2个回答

论文“A heteroscedastic structure errors-in-variables model with equation error”可以在作者页面下载:

http://www.ime.usp.br/~patriota/curriculo-eng.html#Published_pa​​pers

基本上,您必须考虑两个变量的可变性,以避免估计量不一致、不可靠的假设检验和置信区间。

解决这个问题的一种方法是假设每个城市的分布具有相同的方差对于个体响应。然后每个城市的预测变量的平均测量值将具有方差,其中是城市的平均值中的个体数量。这将是一种处理异方差的简单方法。我不知道这种形式的回归问题有什么特殊名称。σ2Xiσ2/ninii