假设一组结构松散的数据(例如 Web 表/链接的开放数据),由许多数据源组成。数据没有共同的模式,每个来源都可以使用同义词属性来描述值(例如“nationality”与“bornIn”)。
我的目标是找到一些以某种方式“定义”它们所描述的实体的“重要”属性。所以,当我为这样一个属性找到相同的值时,我会知道这两个描述很可能是关于同一个实体(例如同一个人)。
例如,属性“lastName”比属性“nationality”更具区分性。
我如何(从统计上)找到比其他属性更重要的属性?
一个天真的解决方案是获取每个属性值的平均 IDF,并将其作为属性的“重要性”因素。一种类似的方法是计算每个属性出现了多少不同的值。
我在机器学习中看到过术语特征或属性选择,但我不想丢弃剩余的属性,我只想对最重要的属性赋予更高的权重。