我正在分析合并在一起的两项调查的数据:
2005-06 年和 2007-08 年学校员工调查
2005-06 年至 2008-09 年的学生调查
对于这两个数据集,我有来自 3 个不同学区的观察结果(在学生或教职员工层面),每个学区每年在各自不同的学区内都有代表性样本。
为了进行分析,我将学生数据合并为两个两年期(2005-07 和 2007-09)。然后我'ddply'-ed每个数据集以获得根据截止值回答问题的员工或学生的百分比(例如,他们是否回答肯定,“同意”,或者学生是否标记他们使用酒精, ETC。)。因此,当我将教职员工和学生级别的数据集合并在一起时,学校是分析单位,我每 2 年的时间段内每所学校只有 1 个观察值(假设学校在给定的时间段内没有丢失数据)。
我的目标是估计员工和学生反应之间的关联。到目前为止,我的计划是分别获得每个学区的所有变量(因为它们都是代表百分比的连续响应)之间的 Pearson 相关系数(因为这消除了该数据集中其他学区的普遍性假设) . 为此,无论如何,我都会对两年内的地区数据进行平均,以便每所学校仅获得一次观察结果。
问题:
- 这是一个合适的分析计划吗?我是否可以使用其他方法来提供更好的推理或能力?
- 如果我的计划是合适的,我是否应该根据学校的入学率获得加权相关性(因为小学校比大学校多,这将对相关系数做出不成比例的贡献)?
我曾就此向数据管理员询问过,他提到决定是否需要对我的数据进行加权的主要因素是我是否认为学校规模会影响相关程度,以及我的解释是在学生层面还是在学校层面。我认为我的解释将是在学校层面(例如,“这样回答的员工比例与这样回答的学生比例相关的学校......”)。