使用 Datumbox 机器学习框架进行网站分类 - 指南?

数据挖掘 机器学习 分类 爪哇
2021-10-02 07:48:53

不久前,我遇到了这个 ML 框架,它实现了几种可供使用的不同算法。该站点还提供了一个方便的 API,您可以使用 API 密钥访问该 API。

我需要该框架来解决网站分类问题,我基本上需要根据其 HTML 内容对数千个网站进行分类。由于我不想绑定到他们现有的 API,我想使用该框架来实现我自己的。

然而,除了一些入门级的数据挖掘课程和相关阅读材料之外,我对我究竟需要使用什么知之甚少。具体来说,我不知道我究竟需要做什么来训练分类器然后对数据进行建模。

该框架已经包含了一些分类算法,例如 NaiveBayes,我知道它非常适合文本分类任务,但我不确定如何将其应用于该问题。

谁能给我一个粗略的指导,说明我需要做什么才能完成这项任务?

1个回答

您可以使用文本分类类来完成您的任务。首先确定您将如何对网站进行分类。(即作为体育网站、健康和财富网站等)。获取一些训练数据并训练它们并完成