基于分层分类中的多个类的相似性度量?

数据挖掘 相似
2021-09-25 10:58:11

任何人都可以为具有多个类的对象推荐一个好的相似性度量,其中每个类都是层次结构的一部分?

例如,假设类看起来像:

1 Produce
  1.1 Eggs
    1.1.1 Duck eggs
    1.1.2 Chicken eggs
  1.2 Milk
    1.2.1 Cow milk
    1.2.2 Goat milk
2 Baked goods
  2.1 Cakes
    2.1.1 Cheesecake
    2.1.2 Chocolate

一个对象可能会在任何级别使用上述项目进行标记,例如:

Omelette: eggs, milk (1.1, 1.2)
Duck egg omelette: duck eggs, milk (1.1.1, 1.2)
Goat milk chocolate cheesecake: goat milk, cheesecake, chocolate (1.2.2, 2.1.1, 2.1.2)
Beef: produce (1)

如果这些类不是层次结构的一部分,我可能会查看分配给一个对象的类之间的余弦相似度(或等效),但我想使用具有相同父级的不同类的事实有一些相似性值(例如,在上面的示例中,牛肉与煎蛋卷有一些小的相似性,因为它们都具有“1 产品”类的项目)。

如果有帮助,层次结构有大约 200k 个类,最大深度为 5。

1个回答

虽然我没有足够的专业知识来建议您选择最佳相似性度量,但我已经在各种论文中看到了其中的一些。希望以下研究论文集对您确定研究的最佳措施有用。请注意,为了更全面的覆盖,我特意收录了论文,使用频率学和贝叶斯方法进行层次分类,包括类信息。

频率论方法:

贝叶斯方法: