我试图考虑一个本质上是拓扑球形的数据集。更容易想到圆柱数据集(二维,一个周期性)或环形数据集(二维,两个周期性)。
明显的候选对象是地理和天文、地面和天空;但我认为天空唯一呈球形的就是它在地面上的投影,所以它真的只是回到了地球上。
我发现从圆的基本多边形来考虑很有帮助:
我试图考虑一个本质上是拓扑球形的数据集。更容易想到圆柱数据集(二维,一个周期性)或环形数据集(二维,两个周期性)。
明显的候选对象是地理和天文、地面和天空;但我认为天空唯一呈球形的就是它在地面上的投影,所以它真的只是回到了地球上。
我发现从圆的基本多边形来考虑很有帮助:
由数字的三元素向量组成的任何数据 如果在转换为极坐标后,3D 角度的每个值只有一个基准面,则可以将其视为拓扑球面 . 因此,数据中的每个点都代表拓扑球体的外部。这是从字面上和形式上采用术语“拓扑”。
还有一些图结构(非循环)具有允许将图拓扑映射到球体的邻域结构。例如,所有可以映射到柏拉图立体的图(即顶点到顶点,边到边,1:1)都是拓扑球体。这也可以包括不规则的邻里结构。
至于这些的实际例子,没有一个会立即浮现在脑海中。
我不完全确定你的意思
我试图考虑一个本质上是拓扑球形的数据集。
但让我先回答一下我认为您打算提出的问题。
我会假设您正在寻找以下示例
或者
如果我们不假设这两件事中的任何一个,那么您的问题就会有无限的不那么有意义的答案。例如,可以任意构建一个数据生成过程,从而产生一个基本上是球形的数据集(我确信 scikit-learn 有一些功能可以做到这一点)。一种实现可以通过对高斯分布(在上述维度中)进行采样来生成向量(在任何维度中)来做到这一点,然后只查看那些范数在所有生成向量范数的前 10% 的向量。这产生了一个大致球形的数据集(在所述维度中)。让我们忽略这类答案,回到我假设您正在寻找的示例。
根据我的经验,球形数据倾向于以有用的方式出现的一种方式是表示数据所在的向量空间中的可能方向。例如,假设您正在研究一个由 3 维向量组成的数据集,并且这些向量在拓扑上看起来不像二维球体。好吧,当然可以尝试通过对每个非零向量执行以下变换来转换数据,使非零向量看起来像一个球体:
此转换会将每个非零向量转换为位于单位球体上的向量(比向量的维度少一维),因此如果向量在其方向上“相当密集且分布良好”,则结果将类似于“基本上是球形的”数据集。在使用该方向信息来计算诸如不同向量之间的角度或来自不同向量集群的代表之间的平均角度之类的东西之前,这可能是一个有用的中间步骤,可以可视化您的数据跨越的方向。
我认为还有许多其他有用的转换可以在上面的描述 #2) 的意义上产生球形数据集的示例。