如何构建文本搜索引擎?

数据挖掘 机器学习 数据挖掘
2021-10-06 09:41:37

我有一个 HTML 字符串,想知道我提供的单词是否与该字符串相关。

相关性可以根据文本中的频率来衡量。

一个例子来说明我的问题:

this is an awesome bike store
bikes can be purchased online.
the bikes we own rock.
check out our bike store now

现在我想测试一些其他的词:

bike repairs
dog poo

bike repairs应标记为相关,而dog poo不应标记为相关。

问题:

  • 怎么可能做到这一点?
  • 如何过滤掉模棱两可的词,例如inor

谢谢你的想法!

我想这是谷歌为了找出与网站相关的关键字而做的事情。我基本上是在尝试重现他们的页面排名。

2个回答

这是信息检索过程的概述

Christopher D. Manning、Prabhakar Raghavan 和 Hinrich Schütze 的《信息检索导论》是一本很好的 IR 入门书籍。


或者只是使用Apache Solr来获得开箱即用所需的一切(或Solr 使用的Apache Lucene来构建您自己的应用程序)

我记得很久以前玩过 Elastic Search(现在的网站与我记忆中的很不一样)。这里有一些关于处理人类语言的东西

请注意,弹性搜索就像一个大火箭筒来解决您的问题。如果你的问题很简单,也许你想从头开始。网上有一些关于它的文档。