我如何在两组相似但不同的类别之间映射类别

数据挖掘 机器学习 分类 初学者 决策树
2022-02-16 07:51:22

拥有来自不同列表网站的多组类别(例如 Yelp、yellowpages.com、Google 我的商家...)。我想弄清楚一个站点上的 X 类别在另一个站点上。

我们在他们所在的所有网站上都有数十万家企业和类别,因此我们可以看到“Galbi Foo Restaurant”在一个网站上属于“餐厅 > 韩国”类别,而在另一个网站上属于“餐厅”类别。

必须发生的一些示例类别映射:

  • 美甲沙龙 = 美甲和修脚
  • 睫毛服务 = Visagist
  • 晒黑 = 日光浴沙龙
  • Specialty Food = Grocery(Specialty Food 子节点不存在)
  • 诊断成像 = 放射科医师

我从哪里开始解决这个问题?这似乎是一个分类(逻辑回归)问题。但是这个 ML 的东西还没有对我产生影响,所以我可能会使这些事情变得过于复杂或过于复杂:)。

1个回答

这听起来像是一个非常标准的监督学习问题。在这种情况下,您的记录将是站点 X 上的企业及其在站点 Z 上的实际类别。您的预测变量将是站点 X 上特定业务的标签/类别,以及您的目标变量 y(即,您要predict),将是其他网站上的类别。就代码而言,您有多种选择,具体取决于您的首选语言。您可以使用 R 中的 caret 包、Python 中的 scikit-learn 库或 Java/Scala 中的 Weka 库(甚至可能是 Spark 的 ML 库,因为它很简单)。

旁注,在您的问题中,我认为您的意思是说“逻辑回归”而不是“逻辑回归”。您不需要使用逻辑回归(尽管它不会受到伤害)。您还可以尝试随机森林或朴素贝叶斯等算法。

另外值得注意的是:您的目标变量将有很多类(即您尝试预测的站点的每个可能的类别),所以如果看起来有很多类,请不要惊慌。对于您所描述的问题,这很正常。