我有许多域名可能与特定品牌相关,也可能不相关。例如,如果品牌是 UPS,那么 www.upssucks.com、www.upspackagesupplier.com 和 www.ihateups.com 可能都被标记为“相关”,因为网站内容正在谈论 UPS。www.ilovepups.com 和 www.pushupssuck.com 与 UPS 网站无关。我想使用经过训练的数据集来预测给定域是否与仅使用注册域名作为输入的品牌相关。似乎一些现成的分类器应该可以工作,但我对这种类型的 ML 项目非常陌生。开始进行预测的第一种方法是什么?我计划在 Python 中使用 scikit 来执行此操作,如果这有什么不同的话。
使用监督学习算法来预测域是否与品牌相关的一般方法是什么?
数据挖掘
预测建模
scikit-学习
2022-02-21 13:16:59
1个回答
几乎不可能以您的方式做到这一点,因为您试图仅基于域名来派生上下文,而域名通常不带有特定的上下文。由于单词 ups 出现在每个域中,并且之前或之后的单词几乎没有携带太多具体信息。如果您可以通过点击 url 来提取有关网站的一些信息,那么您根本不需要任何机器学习。我并不是说这不能通过 ML 完成,我只是说它不会那么有效。如果您使用 scikit learn,您将需要找到一种方法来标记域,在您的情况下,字符级标记化将很有用,放入一个 BOW(单词袋,在您的情况下为字符)从中创建一个热向量并将它们用作特征来预测标签。如果你有很多,我的意思是很多,你可以训练一个字符级卷积神经网络,它可能会表现得更好。干杯。
其它你可能感兴趣的问题