我是 NLP 的新手,我想问一下如何根据我使用 Python 的关键字从文本中提取句子。我创建了一个关键字列表,用于从文档中提取句子。
如果这将是一个简单的标记化问题,您将通过标记循环列表,我如何捕获同义词或相关词?
例如:
Keyword: Internal business
Sentence: You can only use this software for your business only.
Keyword: Confidentiality
Sentence: Information will be kept as secure as possible.
我实际上使用 TF-IDF 实现了文本分类,但数据集小,关键字多。我认为这行不通。提前致谢。
是否可以应用像 word2vec 这样的预训练模型?
是否也可以创建适合我关注的自定义模型?
