我想执行网站分类任务,我将网站建模为网页树。我已经有一个模型,可以将类别分配给树(网页)中的节点。我需要有关如何组合这些节点类别以获得树的整体类别的指导。可以使用哪些分类技术?到目前为止,我从这篇研究论文“网站挖掘”中了解了马尔可夫链在这项任务中的用法。如果我能获得更多关于如何执行任务的想法,我将不胜感激。
给定每个网页的类别,可以使用哪些分类技术对网页树进行分类
数据挖掘
多类分类
马尔科夫过程
机器学习模型
2022-01-29 23:28:10
1个回答
当然有很多方法可以做到这一点,例如多数投票或其他一些基于规则的算法,但是也可以通过监督学习来完成,因为你有一些树的标签。
我会将模型的输入空间设为树的类别的归一化频率。这意味着您将需要一个包含节点可能类别的字典,通常从您的训练集中获得。然后,您可以将实例的频率制成表格。
例如,如果我们有一个包含以下节点类的网站:
- 新闻:5
- 意见:9
- 关于:1
然后我们可以将输入向量表示为。
然后,您可以使用已标记的树来训练此模型。然后,该模型将能够以同样的方式对未来的树进行分类。
要确定树的前个类,您需要一个可以执行此操作的模型(大多数都可以)。如果您使用 K-NN(不同的 K),那么您可以选择个最近的社区。使用随机森林或朴素贝叶斯,您可以选择概率最高
要考虑到每个节点个类别的列表这一事实,您可以在计算归一化频率时添加权重。例如,假设我们有 3 个分类和以下网页(节点)。
- 第 1 页:新闻、观点、评论
- 第 2 页:新闻、广告、观点
- 第 3 页:评论、新闻、广告
- 第 4 页:新闻、观点、广告
那么输入向量可以通过给第一个类别打3分,给下一个打2分,给最后一个打1分来计算。这导致。或者,如果您有这些分类的概率,您可以将其用作加权因子。
其它你可能感兴趣的问题