这是一个可爱的小聚类问题,可能已经解决了一百万次,但我找不到很好的参考。
我有 20 个 1D 数据集,每个数据集有 400 个条目。在图片中,它们用不同的颜色表示。
正如你所看到的,它们也是相当连续的。然而,对于每个索引 i,数据集已按大小重新排序,即颜色现在在每两个数据集的每个交点处跳跃,而不是漂亮的连续线。
有没有办法将数据集恢复到原来的顺序?即将数据聚类成 20 条连续线?这可以很容易地通过肉眼完成。
非常感谢你!
奥弗里
PS这是我到目前为止所尝试的。对于每个索引 i,我假设数据集已经排序到 i-1。我现在通过将有序数据集从第 i-1 个索引外推到第 i 个索引来准备 20 个 bin。现在我有 20 个值可以放入 20 个箱中,每个箱中只有一个值。我可以试试20!组合并找到错误最小的组合,但必须有更聪明/有效的方法。