我有一大张不同现实世界电影院的属性表。我已经按照它们所属的“真实”物理实体对它们进行了分类,因此对于给定的电影院实体可能有多个记录。
在这张表中,我有诸如名称、他们有多少个屏幕等信息。给定一些识别信息(例如,名称的一部分、地址的一行和屏幕的数量)我想将给定的信息分类为关联的实体,并将其添加到数据库中。
我正在考虑使用最近邻居等算法,但距离度量的选择似乎受到限制。我见过的唯一实现使用所有数字或所有文本信息来计算距离。
对于本质上可能是数字、文本和分类的数据,我将如何计算距离度量?
我有一大张不同现实世界电影院的属性表。我已经按照它们所属的“真实”物理实体对它们进行了分类,因此对于给定的电影院实体可能有多个记录。
在这张表中,我有诸如名称、他们有多少个屏幕等信息。给定一些识别信息(例如,名称的一部分、地址的一行和屏幕的数量)我想将给定的信息分类为关联的实体,并将其添加到数据库中。
我正在考虑使用最近邻居等算法,但距离度量的选择似乎受到限制。我见过的唯一实现使用所有数字或所有文本信息来计算距离。
对于本质上可能是数字、文本和分类的数据,我将如何计算距离度量?
您指的是找到最佳指标的一个非常困难的问题。即使对于单峰数据也是一个难题,您所指的多峰案例是一个很大的挑战。基本上有三种可能:
首先,您必须意识到您的数据没有单一的“正确”距离。
给定两个坐标,欧几里得距离适用于不限制旅行的短距离观察。当您处于网格布局的城市中时,曼哈顿距离通常更合适。但是,要获得更准确的行驶时间,您需要查看基础道路网络和其中的网络距离。哦,如果您正在查看洲际坐标,则用于近似大圆距离的各种不同公式可能是一个不错的选择。
因此,即使对于地球上的二维坐标,如果没有辅助信息和额外数据,也没有“正确”的距离。
现在对于非向量空间混合类型数据,确实存在许多您可能想要了解和尝试的指标;比如高尔的相似性度量。