数据挖掘 - 带有模拟数据的 Prime 模型，好主意与否？ - 吾爱随笔录

我目前正在研究具有一些非常独特的特征的文本分类器。数据由大约 2K 个类别组成，但 98% 的数据仅存在于这 2K 个类别中的一个。然而，我们的主要问题是我们有一个额外类别的列表，但还没有看到任何属于这些类别的交易（我们知道它们最终会出现）。

问题：

1) 用这些额外的类别“启动”模型是否有意义？例如，我可以将这些类别的示例添加到我的训练集中。

2) 如果启动是可接受的，是否有任何最佳实践或指南？我想知道我是否应该将额外的事务添加到我的训练语料库中，将它们与其他文本随机化，它们应该代表多少训练集的示例等等。