数据挖掘 - 处理偏斜均值 - 吾爱随笔录

处理偏斜均值

数据挖掘可视化

2022-02-19 07:10:36

我有一个地区、农田面积和为这些地区发放的化肥补贴的数据集。即，使用编造的数字，

district | area | subsidy | subsidy per area (computed)
abc      |   20 |   500   |         25
cde      |   30 |   750   |         25
fgh      | 0.02 |    15   |        750    <--- looks off

我试图想象每个地区的补贴，但在农业数量非常少的地区，每个地区的补贴似乎不正常。全国平均水平几乎在 25 左右。因此，我可以肯定地说，补贴金额与受补贴的面积直接相关，这是可以预料的，因为化肥的使用取决于耕作的面积。我的理论是，小面积的例外是由于无论土地面积如何，都有最低补贴金额。

在可视化数据时是否有任何技术可以处理上述场景？

2个回答

根据业务声明，提供最低补贴是一种特殊情况。因此，为了显示数据的常见行为，您可以从表中删除这些异常值。您可以使用箱线图来可视化数据的传播，然后删除其他内容，如果您知道正常情况下的最大范围，您可以删除具有更多价值的行。

如果区域在散点图中可视化，subsidy标记为 y 轴和areax 轴，subsidy per area则应显示为散点图的斜率。如果subsidy per area在全国平均水平 25 左右，散点图的斜率应该在 25 左右。

您可以将小区域的异常理论可视化为该散点图中的异常值。如果有最低补贴金额，例如 15，您应该在散点图中看到一个下限，即没有任何地区的补贴低于 15。

与坡度1相比，坡度25比较陡，坡度750非常陡，这两个坡度的差异在正常比例下无法突出。您可能需要重新调整 x 轴或 y 轴的比例，以便更容易识别异常值。

其它你可能感兴趣的问题

上一篇如何在字符级嵌入中合并键盘位置？下一篇对特定 n-gram 的搜索是否与字符串搜索相同？