是否有任何现有的算法或公式可以计算数据集的复杂性?

数据挖掘 数据挖掘 数据集
2022-02-27 15:00:45

假设我们有一个包含 n 个元素的数据集,每个元素由 m 个子元素组成,是否有任何现有的算法可以用来计算这个数据集的复杂度?

我的意思是任何包含以下元素的复杂性:

  • 数据集的多样性(不同元素的数量)
  • 每个元素之间的距离
  • 该数据集元素之间的相关性
  • 数据集的大小
1个回答

好吧...... “如果 n 个元素,每个元素由 m 个子元素组成”听起来就像你有一组来自离散对象的集合。如果是这种情况,您可以通过像图论这样的组合分析。您可以通过两种方式对其进行建模:

1)使用超图:您将元素作为超图的超边。该模型可让您计算距离、多样性、大小和更多图形理论度量,例如查看thisthisthis

2)简单:您可以从每个子元素创建简单的完整图,并将它们连接到其他子元素的其他完整图(形成集团)。请参见下面的示例:

element1 = [[a,b,c],[b,c,d],[e,f,g]]  
Graph = [(a,b),(b,c),(a,c),(b,c),(c,d),(b,d),(e,f),(e,g),(f,g)]

使用它,您将拥有一个巨大的对象图形(网络),您可以在其上计算结构和统计测量的色调

我认为我的想法很幼稚,因为您的问题不清楚,您需要提供更详细的示例以获得更准确的答案。

祝你好运!