我已经为命名实体识别 (NER) 问题实现了最大熵马尔可夫模型 (MEMM)。我有四个课程:地理、人、材料(书名等)和其他。
类other
在训练和测试数据集中的比例过高。它发生在 88%(约 40k 个样本)的时间。
我相信其他作者一定有这个问题。你建议我如何解决这个问题?
编辑:单个数据样本是一个完整的标记句子。大部分句子被标记为other
。我猜重采样技术在这里不起作用?您是否建议我使用单个标记来训练数据集,而不是整个句子?
编辑 2:作为对我的帖子重复的回应:您确实意识到您已经链接到一个问题,该问题在我的 2 年后被问到,对吗?