选择数据聚类方法来可视化数据

数据挖掘 分类 聚类 可视化 数据清理
2021-10-10 20:30:43

我正在使用有关哥伦比亚境内流离失所者的数据库。所有数据都是绝对值,所以我计算每 1000 人的比率。

我开始使用 QGis 可视化所有数据。我选择了 std dev、quantiles 和 jenks 方法来确定将值排列到不同的类中。

以下是示例:

集群

但是,在这个过程中我遇到了一个问题:当我们之间存在很大差距时,最好的价值观安排是什么?

这是我正在使用的值的列表。

Values = [290 161 154 133 126 126 118 112 112 103 102 102 101 100 96 96 92  87  87  86  85  84  84  80  79  79  76  73  71  70  70  69  65  60  59  58  57  57  56  55  54  53  53  53  53  52  51  51  50  50  50  50  49  49  49  49  49  48  47  47  47  46  45  44  44  44  44  43  42  42  41  41  40  40  40  40  40  39  39  39  38  38  38  38  37  37  37  37  37  37  37  36  36  35  35  35  35  35  34  34  34  32  32  32  32  32  31  31  31  31  31  31  31  31  31  31  30  30  30  30  30  30  30  30  29  29  29  29  29  29  29  29  28  28  28  28  28  27  27  27  27  27  26  26  26  26  26  26  26  26  26  26  25  25  25  25  25  24  24  24  24  24  23  23  23  23  23  23  23  23  23  23  22  22  22  22  22  22  21  21  21  21  21  21  21  21  21  21  21  20  20  20  20  20  20  20  19  19  19  19  19  19  19  19  19  19  19  19  19  18  18  18  18  18  18  18  18  18  18  17  17  17  17  17  17  17  17  17  17  17  17  17  16  16  16  16  16  16  16  16  16  16  16  16  16  16  16  15  15  15  15  15  15  15  15  15  15  15  15  15  15  14  14  14  14  14  14  14  14  14  14  14  13  13  13  13  13  13  13  13  13  13  13  13  13  13  13  13  12  12  12  12  12  12  12  12  12  12  12  12  12  12  12  12  12  12  12  12  12  12  11  11  11  11  11  11  11  11  11  11  11  11  11  11  11  11  11  11  11  11  11  11  11  10  10  10  10  10  10  10  10  10  10  10  10  10  10  10  10  10  10  10  10  10  10  10  10  10  10  10  9   9   9   9   9   9   9   9   9   9   9   9   9   9   9   9   9   9   9   9   9   9   9   9   9   9   9   9   8   8   8   8   8   8   8   8   8   8   8   8   8   8   8   8   8   8   8   8   8   8   8   8   8   8   8   8   8   8   8   8   8   8   8   7   7   7   7   7   7   7   7   7   7   7   7   7   7   7   7   7   7   7   7   7   7   7   7   7   7   7   7   7   7   7   7   7   7   7   7   7   7   7   7   7   7   7   7   7   7   7   7   6   6   6   6   6   6   6   6   6   6   6   6   6   6   6   6   6   6   6   6   6   6   6   6   6   6   6   6   6   6   6   6   6   6   6   6   6   6   6   6   5   5   5   5   5   5   5   5   5   5   5   5   5   5   5   5   5   5   5   5   5   5   5   5   5   5   5   5   5   5   5   5   5   5   5   5   5   5   5   5   5   5   5   5   5   5   5   5   5   5   5   5   5   5   5   5   5   5   5   5   5   5   5   4   4   4   4   4   4   4   4   4   4   4   4   4   4   4   4   4   4   4   4   4   4   4   4   4   4   4   4   4   4   4   4   4   4   4   4   4   4   4   4   4   4   4   4   4   4   4   4   4   4   4   4   4   4   4   4   3   3   3   3   3   3   3   3   3   3   3   3   3   3   3   3   3   3   3   3   3   3   3   3   3   3   3   3   3   3   3   3   3   3   3   3   3   3   3   3   3   3   3   3   3   3   3   3   3   3   3   3   3   3   3   3   3   3   3   3   3   3   3   3   3   3   3   3   3   3   3   3   3   3   3   3   3   3   3   3   3   3   3   3   3   3   3   3   2   2   2   2   2   2   2   2   2   2   2   2   2   2   2   2   2   2   2   2   2   2   2   2   2   2   2   2   2   2   2   2   2   2   2   2   2   2   2   2   2   2   2   2   2   2   2   2   2   2   2   2   2   2   2   2   2   2   2   2   2   2   2   2   2   2   2   2   2   2   2   2   2   2   2   2   2   2   2   2   2   2   2   2   2   2   2   2   2   2   2   2   2   2   2   2   2   2   2   2   2   2   2   2   2   2   2   2   2   2   2   2   2   2   2   2   2   2   2   2   2   2   2   2   2   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0]

任何了解更好的数据聚类的建议都非常感谢!

谢谢!

2个回答

一种解决方案是将数据分组。例如,创建三个组 - “高”、“中”、“低”。可以精心挑选数字拆分组以强调数据中的信号。

另一种解决方案是对数据设置阈值而不显示高于或低于阈值的数据。

我相信您应该使用对数刻度以获得更好的聚类结果。

看看下面链接上的照片。 维基媒体/Logarithmic_scale

让我知道这是否有帮助。