机器学习算法对博客文章进行分类

数据挖掘 机器学习 数据挖掘 分类 算法
2021-09-24 04:47:32

因此,我收集了大量包含titlecontent和字段的博客文章category我希望实现三件事:tagsgeo-location

  1. 为所有帖子和任何新帖子分配一个类别(或多个类别)。我有严格的类别词汇。
  2. 向可能与帖子相关的帖子添加新标签。
  3. 如果帖子包含有关地点的信息,请标记该帖子。例如:Lorem ipsum dolor sit amet San Francisco, consectetur adipiscing elit

我一直在研究不同的机器学习算法,最近是决策树,但我不认为这是解决上述问题的最佳算法(或者我对它们的理解还不够)。

其中许多帖子已经包含categories,tagsgeo-location数据。有些不包含任何信息,有些只有一些细节。

解决这三个领域的最佳机器学习算法是什么?

3个回答

问题一:品类预测

要预测新博客文章的类别,您可以执行以下操作:

  • 构建一个 MLP(多层感知器,一个非常简单的神经网络)。每个类别都有一个输出节点,每个标签是一个二进制输入节点。但是,这仅在标签数量很少时才有效。添加新标签后,您将不得不重新训练网络。
  • 构建一个以“重要词”为特征的 MLP。
  • 如果您有内部链接,您可能想查看“基于动态内容的网络中的节点分类”。如果你是德国人,你可能也会喜欢Dynamischen Netzwerken mit Inhalt 中的 Über die Klassifizierung von Knoten
  • 您可以将当前拥有的所有单词视为向量空间。修复那个词汇(并可能删除一些无意义的词,如“with”、“a”、“an”——这通常称为“停用词”)。对于每个文本,您计算词汇表中的不同单词。一篇新的博客文章就是这个领域的重点。利用k 用于分类的最近邻。
  • 通过让每个预测器对分类进行投票来使用不同预测器的组合。

也可以看看

问题 2:标记文本

这可以像问题 1 一样处理。

问题 3:查找位置

下载国家/城市数据库(例如maxmind),然后搜索匹配项。

对于文本数据,线性 SVM仍然是最先进的。

对于命名实体识别,查找一些 NER 工具包。

您可能想查看Naive Bayes 分类器或查看此页面上的机器学习非常简单的文本分类您还可以查看Stanford Named Entity Tagger