逮捕记录的“多重反应”分析

机器算法验证 数据集 spss
2022-03-27 18:59:02

背景:

我是一个研究区域问题的研究所的初级研究员,特别是涉及毒品政策。大约两年前,我们的一位高级研究人员开始收集有关附近大城市的逮捕数据。在我一年前加入并改变并说服他改用自动数据收集之前,他一直在手工抄写报纸上的警察记录纸。

我们现在准备开始分析这个数据集。它包含大约 20k 条逮捕记录,几乎没有丢失或无效值(我估计这样的记录不到 100 条,其中一些只是解析器错误)。这些记录包括被捕者的全名和家庭住址、逮捕人员、确切指控等(我们甚至在数据中发现了 SSN)。在这一点上,我们只是在探索数据,但我们希望根据种族、逮捕地点和家庭位置来发现指控的数量和严重程度的差异。

问题

数据集有两个变量,据我了解,它们是分类多回答问题。“逮捕官”是两列,其中一列总是有值,而另一列可能有值(对于在逮捕时在场的第二名警官)。“费用”是五列,每列包含一个费用,没有特定的顺序。为了使结构进一步复杂化,因超过五项指控而被捕的人将获得多条记录。

到目前为止,我们对上述数据集进行了几个小时的处理,并且通过使用多重响应集功能并将其插入到自定义表中,我们已经能够在 SPSS 中获得有用的计数和百分比。这是一个好的开始,但我们想在某个时候继续进行更详细的分析。不幸的是,我们都不知道用于分析分类多重回答问题的推荐(或反推荐)方法。这也适用于我们希望最终将特定指控(例如,“拥有 < 4 盎司的受控物质”)归为更广泛的类别,例如“暴力犯罪”或“毒品犯罪”。

请注意,我不只是在这里寻找一个简单的答案,因为我们没有最后期限。我很乐意阅读,所以请随时为我指明教程、教科书等的方向。我也不是特别喜欢 SPSS——这正是我的同事所习惯的。如果使用它来解决这类问题有明显的缺点,我不介意学习新东西。

3个回答

我不能特别评论如何处理多个响应类别,但您需要进一步完善您的问题,以便论坛上的人们能够提供有用的建议。

您提到了各种利益,例如某种毒品政策干预,以及根据种族、逮捕地点和家庭地点的不同收费。对于不同的指控,它们是评估这方面各个方面的大量犯罪学文献。您是否对特定官员的自由裁量行为(或种族偏见的待遇)感兴趣?您是否对与刑事司法系统不成比例的少数群体接触感兴趣?有各种各样的潜在问题我无法给出任何建议。毒品政策干预的性质是什么?您对犯罪历史和某些政策的影响感兴趣吗?

您的数据的性质非常典型。我使用的一些最近的逮捕数据平均每次逮捕大约有 3 项指控(我记得有 1 个案件在一次逮捕中有 20 项指控)。您通常会收取一些费用,这些费用往往会合并在一起(有时是功能上的多余费用)。通常情况下,持有毒品的指控并不孤单,因为犯罪者做了其他事情来吸引警察的注意(通常是另一种犯罪),并且在被捕后他们被搜查并发现了毒品。毫无疑问,您的数据中会有一个多产的犯罪者核心,对于任何分析,您都想了解他们的历史,并可能在您的分析中考虑到他们(您是否有个人的唯一标识符,或者您是否必须根据姓名、出生日期和/或 SSN'

我参与的大多数项目(包括我自己的工作)都以两种方式处理了多项指控。一种是根据某些排名标准仅包括“顶级”费用,另一种是仅分析特定的费用子集。但是,这几乎不是普遍的建议,并且在不知道您要解决的问题的情况下,一开始就可能不建议这样做。如果您将任何指控集中在一起(例如,将拥有杂草视为拥有可卡因),我建议您基于理论依据而不是使用某种统计方法(尽管再次取决于问题某种类型的统计聚类方法)可能有用)。

您提出的问题越具体,该社区就越能提供建议。您的数据的性质可能看起来很复杂,但这个论坛上的许多人都会有类似数据结构的经验(至少在各个方面)。

目前尚不清楚您要回答什么问题,但这里有几种处理多重响应数据的方法:

  1. 逮捕官

    将两列转换为单个计数变量(1 或 2),表示逮捕人员的数量。您将失去逮捕官员的身份,但也许这对您本身并不感兴趣?

  2. 收费

    再次转换为计数变量或加权计数,权重是犯罪的严重程度。计数变量表示对被告的指控数量。

当您丢失信息(例如,官员的身份、被指控的具体罪行的详细信息等)时,上述处理多响应变量的策略有缺点,但考虑到您想要追求的研究问题,这可能是您可以接受的。

可能会给出更好的答案,但这需要您了解您尝试使用数据完成的任务。

我过去检查了多个响应分类变量之间的关联,基本上遵循以下概述的边际数据的对数线性方法:

您的案件可能会更复杂,因为您所关注的不仅仅是收费官员。但是 Bilder 论文和其中的参考资料可能是探索您的建模选择的良好开端。好消息是我能够毫不费力地将它安装在 R 中。

您可能会遇到的问题最终是一个稀疏的列联表,这在拟合您的对数线性模型时可能会导致收敛问题。在这方面,我认为 Andy 和 Srikant 的建议会很好地为您服务——您必须做出一些适合您的领域的假设或简化。找出你感兴趣的问题,看看你是否可以通过某种方式减少维度。