我想知道是否有一种方法可以在没有领域知识的情况下自动生成实时聊天记录的标签列表。我已经尝试将 NLP 分块应用到聊天记录中,并且只保留名词短语作为标签候选者。但是,这种方法会产生太多无用的名词短语。我可以使用一些规则来删减其中的一些,但很难概括这些规则。
为实时聊天记录生成标签
数据挖掘
机器学习
nlp
2022-02-14 10:52:30
2个回答
您可以尝试 RAKE(Rapid Automatic Keyword Extraction),这里有一个 python 实现。RAKE 是一种面向文档的关键词提取算法,并且与语言无关(理论上,由于 RAKE 使用生成的停用词列表来划分候选关键词,并且考虑到不同的语言,我们需要找到更好的方法来生成停用词列表。)。然而,对于英文文档,RAKE 可以以可接受的精度和召回率提取关键字(或标签)。RAKE 也很高效,因为使用它我们不必训练整个语料库,RAKE 可以通过计算单词的度数和频率来生成一个关键字列表,然后为每个候选关键字计算一个分数,然后选择前 N 个单词。
希望这个答案可以帮助您或为您的下一步调查指明方向。
如果您已有正确标记的聊天记录,您可以尝试将其视为监督学习问题。如果你是从一张白纸开始,那是行不通的。
其它你可能感兴趣的问题