我可以使用哪种机器学习算法?

数据挖掘 机器学习
2022-03-10 10:43:27

我有一组关于疫苗的推文。它们是从 API 收集的,因为它们具有“流感、麻疹、MMR、疫苗”等关键字。

我需要找到专门关于麻疹和今年 2 月在加利福尼亚发生的疫情的推文。在数据集中搜索“加利福尼亚”和“麻疹”之类的词是不够的,因为“帕洛阿尔托的 MMR 疫苗接种率正在上升”之类的推文是关于麻疹和加利福尼亚的,但不会被简单的搜索捕获。

有没有可以帮助我的无监督算法?

1个回答

几个想法:

  1. 如果您有大量推文数据集,您可以尝试使用潜在语义索引来根据它们的用法和共现找出哪些术语在语义上相关。然后在转换之后,您可以应用一些文档相似度度量,例如余弦相似度,来查找与您的查询最相关的推文,例如“加利福尼亚麻疹”。
  2. 使用DBPediaWordNet等知识或词汇数据库来计算查询与推文文本之间的语义相关性,或识别具有相关概念的推文。