让我向您展示一个假设的在线集群应用程序的示例:
在时间 n 点 1,2,3,4 分配给蓝色簇 A,点 b,5,6,7 分配给红色簇 B。
在时间 n+1 处,引入了一个新的点 a,它被分配给蓝色集群 A,但也导致点 b 也被分配给蓝色集群 A。
最后点 1,2,3,4,a,b 属于 A,点 5,6,7 属于 B。对我来说这似乎是合理的。
乍一看似乎很简单实际上有点棘手 - 跨时间步维护标识符。让我试着用一个更边缘的例子来说明这一点:
绿点将导致两个蓝色和两个红色点合并为一个集群,我任意决定将其着色为蓝色 - 请注意,这已经是我在工作的人类启发式思维!
做出此决定的计算机将不得不使用规则。例如,当点被合并到一个集群中时,集群的身份由多数决定。在这种情况下,我们将面临平局——蓝色和红色都可能是新(此处为蓝色)集群的有效选择。
想象一下靠近绿色点的第五个红色点。然后大部分将是红色(3 个红色对 2 个蓝色),因此红色将是新集群的不错选择 - 但这与最右边的集群更清晰的红色选择相矛盾,因为那些已经是红色并且可能应该保持这种方式.
我觉得这很可疑。归根结底,我想这没有完美的规则-而是启发式优化了一些稳定性标准。
这最终导致了我的问题:
- 这个“问题”是否有一个可以引用的名称?
- 是否有“标准”解决方案和...
- ...甚至可能有一个 R 包吗?