数据为文本/数字/分类组合时的距离度量选择

机器算法验证 机器学习 距离函数 距离 k-最近邻
2022-04-20 07:53:15

我有一大张不同现实世界电影院的属性表。我已经按照它们所属的“真实”物理实体对它们进行了分类,因此对于给定的电影院实体可能有多个记录。

在这张表中,我有诸如名称、他们有多少个屏幕等信息。给定一些识别信息(例如,名称的一部分、地址的一行和屏幕的数量)我想将给定的信息分类为关联的实体,并将其添加到数据库中。

我正在考虑使用最近邻居等算法,但距离度量的选择似乎受到限制。我见过的唯一实现使用所有数字或所有文本信息来计算距离。

对于本质上可能是数字、文本和分类的数据,我将如何计算距离度量?

2个回答

您指的是找到最佳指标的一个非常困难的问题。即使对于单峰数据也是一个难题,您所指的多峰案例是一个很大的挑战。基本上有三种可能:

  • 使用一些原始度量,例如欧几里得距离,将所有内容都视为数字(您也可以将分类值转换为某些值)。这将产生相当差的结果,但这是最简单的可能性,并为您提供时间来分析和优化系统的其余部分。
  • 对您的数据进行深入分析和/或寻找能够设计良好指标的专家。这是最难做到的,但会产生最好的结果(假设您可以访问“真正的专家”)。
  • 为您的问题添加额外的抽象层,并将找到此指标视为一个优化问题。有许多研究表明,如何通过将任何类型的数据形式化为优化问题并应用许多已知的数学求解器之一,为任何类型的数据找到良好的多模态指标。此类研究的一些例子是:

首先,您必须意识到您的数据没有单一的“正确”距离

给定两个坐标,欧几里得距离适用于不限制旅行的短距离观察。当您处于网格布局的城市中时,曼哈顿距离通常更合适。但是,要获得更准确的行驶时间,您需要查看基础道路网络和其中的网络距离哦,如果您正在查看洲际坐标,则用于近似大圆距离的各种不同公式可能是一个不错的选择。

因此,即使对于地球上的二维坐标,如果没有辅助信息和额外数据,也没有“正确”的距离。

现在对于非向量空间混合类型数据,确实存在许多您可能想要了解和尝试的指标;比如高尔的相似性度量