背景:
我是一个研究区域问题的研究所的初级研究员,特别是涉及毒品政策。大约两年前,我们的一位高级研究人员开始收集有关附近大城市的逮捕数据。在我一年前加入并改变并说服他改用自动数据收集之前,他一直在手工抄写报纸上的警察记录纸。
我们现在准备开始分析这个数据集。它包含大约 20k 条逮捕记录,几乎没有丢失或无效值(我估计这样的记录不到 100 条,其中一些只是解析器错误)。这些记录包括被捕者的全名和家庭住址、逮捕人员、确切指控等(我们甚至在数据中发现了 SSN)。在这一点上,我们只是在探索数据,但我们希望根据种族、逮捕地点和家庭位置来发现指控的数量和严重程度的差异。
问题
数据集有两个变量,据我了解,它们是分类多回答问题。“逮捕官”是两列,其中一列总是有值,而另一列可能有值(对于在逮捕时在场的第二名警官)。“费用”是五列,每列包含一个费用,没有特定的顺序。为了使结构进一步复杂化,因超过五项指控而被捕的人将获得多条记录。
到目前为止,我们对上述数据集进行了几个小时的处理,并且通过使用多重响应集功能并将其插入到自定义表中,我们已经能够在 SPSS 中获得有用的计数和百分比。这是一个好的开始,但我们想在某个时候继续进行更详细的分析。不幸的是,我们都不知道用于分析分类多重回答问题的推荐(或反推荐)方法。这也适用于我们希望最终将特定指控(例如,“拥有 < 4 盎司的受控物质”)归为更广泛的类别,例如“暴力犯罪”或“毒品犯罪”。
请注意,我不只是在这里寻找一个简单的答案,因为我们没有最后期限。我很乐意阅读,所以请随时为我指明教程、教科书等的方向。我也不是特别喜欢 SPSS——这正是我的同事所习惯的。如果使用它来解决这类问题有明显的缺点,我不介意学习新东西。