数据挖掘 - 基于分层分类中的多个类的相似性度量？ - 吾爱随笔录

任何人都可以为具有多个类的对象推荐一个好的相似性度量，其中每个类都是层次结构的一部分？

例如，假设类看起来像：

1 Produce
  1.1 Eggs
    1.1.1 Duck eggs
    1.1.2 Chicken eggs
  1.2 Milk
    1.2.1 Cow milk
    1.2.2 Goat milk
2 Baked goods
  2.1 Cakes
    2.1.1 Cheesecake
    2.1.2 Chocolate

一个对象可能会在任何级别使用上述项目进行标记，例如：

Omelette: eggs, milk (1.1, 1.2)
Duck egg omelette: duck eggs, milk (1.1.1, 1.2)
Goat milk chocolate cheesecake: goat milk, cheesecake, chocolate (1.2.2, 2.1.1, 2.1.2)
Beef: produce (1)

如果这些类不是层次结构的一部分，我可能会查看分配给一个对象的类之间的余弦相似度（或等效），但我想使用具有相同父级的不同类的事实有一些相似性值（例如，在上面的示例中，牛肉与煎蛋卷有一些小的相似性，因为它们都具有“1 产品”类的项目）。

如果有帮助，层次结构有大约 200k 个类，最大深度为 5。