我有一个 HTML 字符串,想知道我提供的单词是否与该字符串相关。
相关性可以根据文本中的频率来衡量。
一个例子来说明我的问题:
this is an awesome bike store
bikes can be purchased online.
the bikes we own rock.
check out our bike store now
现在我想测试一些其他的词:
bike repairs
dog poo
bike repairs
应标记为相关,而dog poo
不应标记为相关。
问题:
- 怎么可能做到这一点?
- 如何过滤掉模棱两可的词,例如
in
或or
谢谢你的想法!
我想这是谷歌为了找出与网站相关的关键字而做的事情。我基本上是在尝试重现他们的页面排名。