标准化排名比率的数字

数据挖掘 统计数据
2021-10-05 03:38:16

我正在尝试对一些百分比进行排名。我有每个比率的分子和分母。举一个具体的例子,考虑total graduates / total students学校的比率。

但问题是total students变化范围很长(1000-20000)。较小的学校似乎有较高的学生毕业率,但我想规范它,而不是让学校的规模影响排名。有没有办法做到这一点?

1个回答

这在数学上相对简单。首先,将回归线拟合到“毕业生总数”(y)与“学生总数”(x)的散点图中。如果您的断言是正确的,您可能会看到一条向下倾斜的线(较小的学校毕业率较高)。

您可以确定这条线的斜率和 y 截距以将其转换为方程 y = mx + b,然后做一些代数以将方程转换为标准化形式:“y / x = m + b / x”

然后,使用数据中的所有比率,您应该减去这个 RHS:

标准化比率 =(毕业生总数 / 学生总数)-(m + b / 学生总数)

如果结果为正,则该比例高于该尺寸的正常值(即高于回归线),如果为负,则低于回归线。如果您想要所有正数,您可以添加一个正常数以将所有结果移到零以上。


这是如何在数学上做到这一点,但我建议你考虑从数据分析的角度来看,按学校规模标准化是否明智。这取决于您的分析目的,特别是如何分析该比率与其他数据的关系。