总结每个比率(即每 100,000 人的犯罪率)是否是一种好习惯?

数据挖掘 数据集 统计数据 数据清理 方法
2022-02-23 08:38:55

考虑一个从 1990 年到 2017 年的数据集,其中包含拉丁美洲一些城市每 100,000 人的犯罪率。

我想根据这个数据和其他指标来衡量哪个城市更复杂。我正在使用 Saaty 提出的层次分析法。

考虑这个例子:

city_code  r1990  r1991 r1992 r1993 r1994 r1994
  12345     120     80    91   110   105   99
  23456      10     15    16    12     7   11
  34567      90     91    85    75    77   65

根据我的问题,我想要每年的每个费率,然后根据总数sum获得每年的每个费率。mean

基于上面的例子:

city_code  total
  12345     605
  23456      71
  34567     483

city_code  mean1990  mean1991 mean1992 mean1993 mean1994 mean1994
  12345      0.20      0.13     0.15     0.18     0.17     0.16
  23456      0.14      0.21     0.23     0.17     0.10     0.15
  34567      0.19      0.19     0.18     0.16     0.16     0.13

那么,这是一个好习惯吗?我找不到遵循此方法的示例?任何关于这个主题的方向都将不胜感激。

1个回答

如果您处理几年,这可能会相当不错。

一般来说,这不是一个好的做法,因为渐近地会导致您在所有考虑的年份中拥有几乎相同的犯罪率。但是,除非您有过去 10000 年的数据,否则您可以简单地忽略渐近行为并继续您正在做的事情。

否则,您可以将数据标准化为参考值,例如该系列的最大犯罪数量。这更健壮。