我有一组已完成标记的文档(1 到 11)。
让我们假设:
Doc No: 1,3,5,7 - Belongs to Type A
Doc No: 2,4,9 - Belongs to Type B
Doc No: 8,10 - Belongs to Type C
Doc No, 6,11 - Belongs to No one
现在,假设我有新的传入文档 - 11,12,13 .. 等等,我想根据现有文档的文本相似性知道它们属于哪个类型(A、B、C 或无)在那个类型中。有人可以建议我如何实现这一目标吗?
我应该创建自己的数据语料库并将其视为监督问题吗?