如何使用分类法和支持向量机进行问题分类?

人工智能 机器学习 自然语言处理 支持向量机
2021-10-31 07:14:12

我将开发一个开放域自然语言问答 (NLQA) 系统,并将使用支持向量机 (SVM) 作为机器学习 (ML) 模型进行问题分类。

我拥有的数据来自一个多维数据集,包含多个维度,其中一些包含层次结构。

我不明白如何使用/组合分类法和 SVM 进行问​​题分类。如果我理解正确,分类法仍然需要手动开发,除非正在使用现有的分类法。SVM 根据这个分类对查询的 NL 问题进行排序?

这是正确的,还是我混合了整个概念?

1个回答

这不是答案(我没有足够的声誉发表评论)。我在硕士论文中做了一些与此类似的事情,并认为它与您感兴趣的内容很接近。

在其中,我开发了一个框架,用于从基于 Web 的教育内容中提取元数据。该元数据用于对许多不同属性的教育内容进行分类,然后可用于更快、更有效地搜索和发现教育内容。

教育资源(包含内容)可以是诸如作业、家庭作业、作业、在线书籍、考试问题、课程等(许多大学在线托管)的文本或 PDF 文件。为了确定它是什么类型的教育资源,我会解析文本并查找关键字和格式样式(预处理包括构建 2-gram 和 3-gram、POS 标记、使用小的特定解析器用于 NER、日期和其他文本实体之一教育内容中的相遇)。

对于某些部分,我使用 Wordnet(也可以在 python-nltk 下使用)来获取不同实体之间的关系,并找到它们之间的密切关系。还使用了 DBpedia。但是,在大多数情况下,我必须确定最常出现的术语并手动构建分类法。(花了很多时间!)。通过查看公开可用的分类法,我获得了很多关键字候选者。

为了提取特定领域的分类/本体,需要手动构建它。从文本生成本体是一个活跃的研究领域,构建特定领域的本体已经尝试了很多年。这种分类法(此处为词库)的一个示例是agrovoc,其中领域专家通过手动识别农业实体为知识做出了贡献。

有很多地方可以使用特定领域的词汇;也许你可以使用它。在某些方面,它接近于有监督的机器学习,其中有一些很好的数据和相应的很好的输出。然而,就我而言,它并没有太多的学习——更像是模板匹配。

希望这可以帮助。