我目前正在研究具有一些非常独特的特征的文本分类器。数据由大约 2K 个类别组成,但 98% 的数据仅存在于这 2K 个类别中的一个。然而,我们的主要问题是我们有一个额外类别的列表,但还没有看到任何属于这些类别的交易(我们知道它们最终会出现)。
问题:
1) 用这些额外的类别“启动”模型是否有意义?例如,我可以将这些类别的示例添加到我的训练集中。
2) 如果启动是可接受的,是否有任何最佳实践或指南?我想知道我是否应该将额外的事务添加到我的训练语料库中,将它们与其他文本随机化,它们应该代表多少训练集的示例等等。