我有一个属于十个不同类别的问题数据集,即(定义、事实、缩写、填空、动词、数字、日期、谜题、词源和类别关系)。
类别简述如下:
- 定义——包含答案定义的问题。
- 类别关系——答案与在类别中指定关系的问题具有语义关系。
- FITB——这些是一般的填空题——其中一些要求完成一个短语。
- 缩写 - 答案是问题中缩写的扩展。
- 谜题——这些需要推导或综合才能得到答案。
- 词源 - 答案是从外来词衍生的英语单词。
- 动词——答案是动词。
- 数字——答案是一个数字。
- 日期 - 问题要求日期或年份。
- Factoid – 如果问题的答案可以在 Wikipedia 上找到,则该问题是事实。
我使用了名为 shiftreducer 的斯坦福核心 NLP 包来找出一个类别中每个问题的词性 (POS) 值。我曾想过使用这种 POS 模式作为类之间的判别式,但结果证明它是通用的,因为:
- 所有的类都遵循类似的模式
- 名词在 POS 计数中居首位,其次是行列式、介词、形容词、复数名词,最后是动词。
我可以通过哪些其他方式来区分问题类别?或者正如我首先提出的问题,“我选择什么样的特征来进行有效分类?”