因此,我收集了大量包含title、content、和字段的博客文章category,我希望实现三件事:tagsgeo-location
- 为所有帖子和任何新帖子分配一个类别(或多个类别)。我有严格的类别词汇。
- 向可能与帖子相关的帖子添加新标签。
- 如果帖子包含有关地点的信息,请标记该帖子。例如:
Lorem ipsum dolor sit amet San Francisco, consectetur adipiscing elit。
我一直在研究不同的机器学习算法,最近是决策树,但我不认为这是解决上述问题的最佳算法(或者我对它们的理解还不够)。
其中许多帖子已经包含categories,tags和geo-location数据。有些不包含任何信息,有些只有一些细节。
解决这三个领域的最佳机器学习算法是什么?