处理偏斜均值

数据挖掘 可视化
2022-02-19 07:10:36

我有一个地区、农田面积和为这些地区发放的化肥补贴的数据集。即,使用编造的数字,

district | area | subsidy | subsidy per area (computed)
abc      |   20 |   500   |         25
cde      |   30 |   750   |         25
fgh      | 0.02 |    15   |        750    <--- looks off

我试图想象每个地区的补贴,但在农业数量非常少的地区,每个地区的补贴似乎不正常。全国平均水平几乎在 25 左右。因此,我可以肯定地说,补贴金额与受补贴的面积直接相关,这是可以预料的,因为化肥的使用取决于耕作的面积。我的理论是,小面积的例外是由于无论土地面积如何,都有最低补贴金额。

在可视化数据时是否有任何技术可以处理上述场景?

2个回答

根据业务声明,提供最低补贴是一种特殊情况。因此,为了显示数据的常见行为,您可以从表中删除这些异常值。您可以使用箱线图来可视化数据的传播,然后删除其他内容,如果您知道正常情况下的最大范围,您可以删除具有更多价值的行。

如果区域在散点图中可视化,subsidy标记为 y 轴和areax 轴,subsidy per area则应显示为散点图的斜率。如果subsidy per area在全国平均水平 25 左右,散点图的斜率应该在 25 左右。

您可以将小区域的异常理论可视化为该散点图中的异常值。如果有最低补贴金额,例如 15,您应该在散点图中看到一个下限,即没有任何地区的补贴低于 15。

与坡度1相比,坡度25比较陡,坡度750非常陡,这两个坡度的差异在正常比例下无法突出。您可能需要重新调整 x 轴或 y 轴的比例,以便更容易识别异常值。