机器算法验证 - 如何将数值数据分组到自然形成的“括号”中？（例如收入） - 吾爱随笔录

如何将数值数据分组到自然形成的“括号”中？（例如收入）

机器算法验证聚类相对分布

2022-02-10 10:44:03

以下描述了我要完成的工作，但有可能一个替代问题陈述可以描述我的目标：

我想要

将以下数字分组，每组内数字的方差不太大，各组平均值之间的差异不太小
将最终获得的分布与“完美”的分布进行比较，看看它与完美的“不同”。

外行人对目标的解释

我正在尝试计算收入分配，并确定每个人口所处的“收入等级”。收入等级应该根据输入数据进行自我调整。

我的目标是最终衡量或计算收入等级之间的差异。我假设会有很多括号，并且想看看每一层“相距”多远。

以下是 20 人样本集的每小时收入样本，总收入为 3587：

Population= 10                   pop=2   population=5              population =3
10, 11,13,14,14,14,14,14,15,20,  40,50  ,90,91,92,93,94      999,999,900

如何使用数学概念对数据进行分组、排序和分析，这些数据就像给定人口的收入分配一样？

在计算结束时，我想确定分层收入分配，其中完美的分配看起来像这样

(each person makes $10 more per hour than the previous; total is 3587)
89, 99, 109, 119, 129, 139, 149, 159, 169, 179, 189, 199, 209, 219, 229, 239, 249, 259, 269, 279

或这个：

(evenly distributed groups of people make the same per hour) 
(gaps between income groups is consistent and not "too far")
(income total is 3587)
99 99 99   129 129 129   159 159 159   199 199 199  229 229 229  269 269 269

问题

我应该如何分析人口群体，并以一种可以告诉我需要多少才能使其更像上面列出的最后两个模型集的方式来衡量差距？

2个回答

只要存在可以排列值的某个维度，使用单个变量的聚类分析就非常有意义。这可以是 测量尺度、时间或空间。

给定一些测量尺度上的有序数据，可能有兴趣在频率分布中寻找相对中断（反模式，在一个术语中）。

注意事项：然而，在统计科学的几个领域中，定义了任意或可能看起来是任意的分箱的中断被广泛回避，并且普遍且明显地偏好以相等的间隔进行分箱，并且通常在可能的情况下完全避免分箱. 这部分是口味问题，部分是惯例问题：随着存储完整数据集变得更加容易，实践已经发生了变化。

一个时间序列可以分为咒语、时期、时期等，理想情况下，子序列内的差异相对较小，子序列之间的差异相对较大。每当要细分单个空间维度（水平或垂直）时，空间也会出现同样的问题。在地质和其他科学中，这通常在分区的标题下进行研究。

请注意，任何形式的聚类都应始终伴随着适当的数据绘图（例如，使用点图或分位数图或线图），这确实可以清楚地表明中断是明显的（因此形式聚类仅仅是装饰性的）或不存在令人信服的中断（因此正式的聚类可能毫无意义）。

考虑一个按大小排序的值的玩具示例：

    14 15 16 23 24 25 56 57 58

很明显，三组聚类

    14 15 16 | 23 24 25 | 56 57 58

是明智的。无论排序是在值本身，还是在时间或空间上，数据总是可以在一维中排列，这为问题提供了特殊的结构。因此，虽然可以使用更通用的聚类方法，但理想情况下应该利用这种特殊结构。 $k$ 设计的团体 $n$ 值是通过放置定义的 $k - 1$ 标记（在上面的示例中， $k - 1 = 2$ ); 有 $n - 1$ 可能放置它们的地方。因而有 $n - 1 \choose k - 1$ 可能的聚类。然而，如果 $k$ 是自由变化的，那么可能的聚类总数是 $2^{n - 1}$ ，因为每个值可以与每个邻居在同一组中，也可以不在。即使是谦虚的 $n$ ，这是一个很大的数字。

通过放置标记以最小化给定数量的组，可以使问题变得精确（Fisher 1958；Hartigan 1975）

sum over groups of variability around group centres .

$\text{sum over groups of variability around group centres}.$

与组均值的偏差平方和是最明显的可能性。与组中位数的绝对偏差总和以及其他测量值可能会很受欢迎。

Hartigan (1975) 展示了动态编程方法如何使此类计算变得简单，并提供了 Fortran 代码。group1d将从 SSC 安装Stata 实施 (Cox 2007) 。

Cox, NJ 2007。GROUP1D：一维分组或聚类的 Stata 模块。http://ideas.repec.org/c/boc/bocode/s456844.html

Fisher, WD 1958。关于最大同质性的分组。杂志，美国统计协会53：789-98。

Hartigan, JA 1975。聚类算法。 纽约：约翰威利。第 6 章。

后记这种方法似乎与具体问题的第一部分相匹配。我之所以提出它，是因为我认为该公式具有一些普遍的兴趣（并且因为我很容易回收 Cox 2007 的部分文档）。但如果具体目标是将收入分布与参考均匀分布进行比较，我认为分箱根本没有任何作用。这是经济学中的一个标准问题，洛伦兹曲线和不平等度量是其起点。本质上，您可以将分位数与分位数或百分点与百分点进行比较。

看看 Jenks 自然休息：

https://en.wikipedia.org/wiki/Jenks_natural_breaks_optimization

我认为这是您所需要的，并且有多种语言的实现。

其它你可能感兴趣的问题

上一篇应用 ARMA-GARCH 需要平稳性吗？下一篇泊松回归是否有错误项？