目前,我正在做一个需要我构建一个朴素贝叶斯分类器的项目。现在,我在网上有一个表格,要求人们提交一个句子和句子的主语,以便建立一个分类器来识别句子的主语。但在训练分类器之前,我打算处理所有词性条目和主题位置。所以我的训练集将被格式化为:
Sentence: Jake moved the chair. Subject: Jake
POS-Tagged: NNP VBD DD NN Location: 0
这会是构建分类器的有效方法,还是有更好的方法?
目前,我正在做一个需要我构建一个朴素贝叶斯分类器的项目。现在,我在网上有一个表格,要求人们提交一个句子和句子的主语,以便建立一个分类器来识别句子的主语。但在训练分类器之前,我打算处理所有词性条目和主题位置。所以我的训练集将被格式化为:
Sentence: Jake moved the chair. Subject: Jake
POS-Tagged: NNP VBD DD NN Location: 0
这会是构建分类器的有效方法,还是有更好的方法?
你的方法肯定会奏效。我建议训练各种分类器并使用多类 roc 分析比较它们的性能。此外,考虑除您提到的那些(例如 pos 标签)之外的其他有用的功能。特征工程是构建良好预测模型的最重要因素之一。要记住的另一件事是,类可能高度不平衡,这可能会影响模型的性能。