用于比较两个以上网络数据系列的统计稳健距离测量/度量

数据挖掘 数据挖掘 距离 描述性统计
2022-02-19 00:00:42

我有大约 30 个长度不等的列表(其中一些是数据的一式三份),对应于与不同图表的节点相关的指标。我想使用距离度量来比较它们的相似性,但由于数据列表的长度不等,我不确定我可以使用哪种方法。我正在探索使用动态时间扭曲,但想知道是否还有其他更基本的方法。

例如,我正在考虑为每个列表创建具有相同 bin 边缘和 bin 数量的直方图,并使用频率上的距离度量,但我不知道如何使用 python 来解决这个问题,或者是否有一个函数/包已经这样做了。这甚至是一种“好”的方式吗?

我也有兴趣找到一种方法来衡量不同图表之间距离度量的统计显着性。

这是一个问题,我是新手,感谢任何帮助。先感谢您!

1个回答

只是为了澄清这个问题:这些列表是否描述了不同的图表,或者您是否需要相似性来了解哪些列表引用了同一个图表?数据是否在单个列表中重复或重复,或者列表是否与其他列表重复?您会考虑删除多余的指标吗?

抱歉,这更像是一个评论而不是一个答案,但我还没有资格在这里发表评论,所以我开始这样的讨论。