关于在汇总调查数据中使用加权相关性

机器算法验证 相关性 民意调查 多层次分析
2022-03-02 05:50:29

我正在分析合并在一起的两项调查的数据:

  • 2005-06 年和 2007-08 年学校员工调查

  • 2005-06 年至 2008-09 年的学生调查

对于这两个数据集,我有来自 3 个不同学区的观察结果(在学生或教职员工层面),每个学区每年在各自不同的学区内都有代表性样本。

为了进行分析,我将学生数据合并为两个两年期(2005-07 和 2007-09)。然后我'ddply'-ed每个数据集以获得根据截止值回答问题的员工或学生的百分比(例如,他们是否回答肯定,“同意”,或者学生是否标记他们使用酒精, ETC。)。因此,当我将教职员工和学生级别的数据集合并在一起时,学校是分析单位,我每 2 年的时间段内每所学校只有 1 个观察值(假设学校在给定的时间段内没有丢失数据)。

我的目标是估计员工和学生反应之间的关联。到目前为止,我的计划是分别获得每个学区的所有变量(因为它们都是代表百分比的连续响应)之间的 Pearson 相关系数(因为这消除了该数据集中其他学区的普遍性假设) . 为此,无论如何,我都会对两年内的地区数据进行平均,以便每所学校仅获得一次观察结果。

问题:

  1. 这是一个合适的分析计划吗?我是否可以使用其他方法来提供更好的推理或能力?
  2. 如果我的计划是合适的,我是否应该根据学校的入学率获得加权相关性(因为小学校比大学校多,这将对相关系数做出不成比例的贡献)?

我曾就此向数据管理员询问过,他提到决定是否需要对我的数据进行加权的主要因素是我是否认为学校规模会影响相关程度,以及我的解释是在学生层面还是在学校层面。我认为我的解释将是在学校层面(例如,“这样回答的员工比例与这样回答的学生比例相关的学校......”)。

1个回答

我想现在这已经是历史了,但以防万一……

1)是的,这似乎是合适的。您的研究问题必须是“学校的教师态度/行为是否与该学校的学生态度/行为相关?” 如果这是您的问题,则学校是合适的分析单位(无论如何,无法将个别教师与学生匹配)。

我只想对皮尔逊相关系数的使用提出警告,与分析单位或抽样策略的问题无关。相关系数不能拾取非线性关系,可能会误导解释,容易被一些异常值扭曲,并且基于它的经典推断取决于正态性(它不会完全符合您的比例数据,尽管它可能是一个合理的近似值)。至少我会仔细使用图形方法来检查这是一种明智的方法,并且没有更好的方法来推断两个变量之间的关系。

2)我认为您不需要加权数据,但我肯定会尝试(并希望它不会改变结果)。但我会根据你在学校的样本量来衡量,而不是根据入学人数来衡量。原因将是关于估计,而不是您的分析单位或任何“加权人口”的需要。根据您的有限样本,您只能估计每所学校的真实教师和学生的反应。如果您拥有较大样本的学校,您对自己的估计更有信心,因此如果在拟合相关性或线性回归时更认真地对待它们会很好。