带有模拟数据的 Prime 模型,好主意与否?

数据挖掘 机器学习 分类 文本挖掘 训练
2022-03-02 17:06:36

我目前正在研究具有一些非常独特的特征的文本分类器。数据由大约 2K 个类别组成,但 98% 的数据仅存在于这 2K 个类别中的一个。然而,我们的主要问题是我们有一个额外类别的列表,但还没有看到任何属于这些类别的交易(我们知道它们最终会出现)。

问题:

1) 用这些额外的类别“启动”模型是否有意义?例如,我可以将这些类别的示例添加到我的训练集中。

2) 如果启动是可接受的,是否有任何最佳实践或指南?我想知道我是否应该将额外的事务添加到我的训练语料库中,将它们与其他文本随机化,它们应该代表多少训练集的示例等等。

1个回答

这不是你想听到的答案,但我会说,“不”。启动不是一个好主意。模型的好坏取决于它的输入。如果您自己编写输入,那么您的模型并没有学习真正的模式,您不妨硬编码一组规则,这些规则代表您将如何创建准备好的数据。

一种更好的方法可能是制作一个贝叶斯模型,您可以在其中根据您的假设创建先验。贝叶斯模型将随着真实数据的可用而发展。