考虑一个有结果的经典数据分析问题以及它与许多预测变量的关系. 这里考虑的基本应用类型是
是一些群体层面的结果,例如城市的犯罪率.
预测变量是群体级别的特征,例如城市的人口统计特征.
基本目标是拟合回归模型(可能具有随机效应,但现在忘记了):
当一个(或多个)预测变量是每个单元具有不同样本量的调查的结果时,是否会出现一些技术难题?例如,假设是城市的总分这是来自城市的个人样本的平均响应但是这些平均值所基于的样本量却大相径庭:
由于在某种意义上,对于每个城市,预测变量并不都具有相同的含义,我担心在回归模型中对这些变量进行调节,就好像它们都是“生而平等”的,可能会导致一些误导性的推论。
这类问题有名称吗?如果是这样,是否有研究如何处理这个问题?
我的想法是将其视为一个有误差测量的预测变量,并沿着这些思路做一些事情,但测量误差存在异方差性,所以这将非常复杂。我可能会以错误的方式思考这个问题,或者可能会使事情变得更复杂,但这里的任何讨论都会有所帮助。