数据挖掘 - 是否有任何可用于短语的文本相似性数据库？ - 吾爱随笔录

是否有任何可用于短语的文本相似性数据库？

数据挖掘机器学习深度学习 nlp

2022-03-04 01:46:04

我想训练我的应用程序的短语相似性。我希望我的模型能够预测短语的相似度得分，如下例所示。前任-

International Business Machines = I.B.M
Synergy Telecom = SynTel
Beam inc = Beam Incorporate
Sir J J Smith = Johnson Smith
Alex, Julia = J Alex
James B. D. Joshi = James Joshi
James Beaty, Jr. = Beaty

是否有任何数据集可用于训练这种类型的模型？

2个回答

这是一个难题，但绝对值得探索。

一个有趣的资源是 DBpedia。它旨在从维基百科项目中提取结构化信息。它可在免费许可 (CC-BY-SA) 下使用。

您可以方便地在线探索该项目，例如：

请注意，您仅限于 Wikipedia 上广泛但结束的知识，例如Synergy Telecom/SynTel似乎没有条目。克服这个限制需要你的创造力。

这似乎对应于实体链接或可能命名的实体共指。您可能会在这里找到一些数据集。

其它你可能感兴趣的问题

上一篇为什么召回率这么高？下一篇Keras 的 fit_generator() 没有调用我的生成器