我正在尝试编写一个问答意图分类程序。
我的任务是一组未标记的问题和答案,我必须编写一个程序,我可以将所有类似的问题分组并确定它们的答案。
一旦完成了一组类似问题的答案,我必须确定答案的意图或重点。
例如,如果我有一组问题,例如:
a) Q: where is Texas? A : It is in USA.
b) Q: where is California? A: It is in USA.
c) Q: where is NASA? A: It is in USA.
d) Q: who is Queen Elizabeth II? A: Queen of England.
e) Q: who is Donald Trump? A : President of USA.
因此,我试图将问题 a、b 和 c 分组为面向位置的问题,将 d 和 e 分组为面向官员/人员的问题。
为了解决这个问题,
我正在尝试使用标准分类器,并且由于它将“它在美国”标识为类,因此我试图将其标记为“It/NA is/NA in/NA USA/LOC”以识别意图/答案的重点是位置。
我正在使用像朴素贝叶斯这样的标准分类器和基于标准隐马尔可夫模型的标记器。
结果或多或少都很好。我正在使用两个训练集,一个用于分类器,另一个用于标记。
如果任何一位受人尊敬的科学家可以建议我如何解决这个问题?
这里,Q 表示问题,A 表示答案。
为交叉发帖道歉