自然语言推荐系统:是否对输入进行预分类?

人工智能 分类 自然语言处理
2021-11-07 20:33:16

使用带标签的输入字段对自然语言输入进行“预分类”是否有帮助?例如,“谁”、“什么”、“哪里”、“何时”、“为什么”、“如何”和“多少钱?” 还是单一的、单一的、自由格式的长文本输入字段对于模型训练目的同样有效和高效?

场景 1:没有输入标签

我们是哥本哈根大学的三位研究员,爱丽丝、鲍勃和查理。我们想了解人类视觉系统的发展。这些知识将有助于预防和治疗儿童的某些视力问题。此外,指导视觉系统发育的规则可以应用于大脑中的其他系统。因此,我们的工作广泛应用于影响神经系统的其他发育障碍。我们将在 2019 年进行这项研究,预算为 15,000 美元。

场景 2:使用输入标签

谁:我们是三个研究员,Alice、Bob 和 Charlie。

What:我们想了解人类视觉系统的发展。

地点:哥本哈根大学。

时间:在 2019 日历年期间。

原因:这些知识将有助于预防和治疗儿童的某些视力问题。

如何:此外,指导视觉系统发育的规则可以应用于大脑中的其他系统。

多少钱:这项研究将花费 15,000 美元。

用例:

我正在构建一个 AI/ML 推荐系统。用户订阅该系统以获得他们可能想参与或资助的研究项目的推荐。将有来自世界各地的许多项目。人类无法分类和过滤的东西太多了。所以人工智能会自动排序和过滤。

使用标签对输入字段进行预分类是否有助于训练算法更高效或更有效?

1个回答

可能是的!当您像这样拆分输入时,您正在添加信息在您构建系统、获取一些数据并开始培训之前,这 有多大帮助是一个悬而未决的问题。

当然,让机器直接完成非结构化文本的所有工作会很棒——但你想要一个功能强大、易于使用的网站,而不是你自己的研究项目。为此,尽一切可能限制问题的范围,并最大限度地利用模型可用的信息。例如,您可能想查看是否可以使用 Google Scholar 添加研究人员(这样您就可以链接到他们的个人资料,并可能通过这种方式挖掘一些信息)。

在您获得大量研究建议和用户交互来学习之前,您将受到一定程度的“数据限制”。我们的 NLP 架构师这样的工具可以帮助您从文本中获得更多信息(您还应该评估其他一些非常酷的新一代 ML-for-NLP 包)。