数据挖掘 - 分类模型需要多少基本事实？ - 吾爱随笔录

我有需要分类的非结构化问题文本（多项分类）。根据组件（允许我对数据进行分段的结构化元素），每个组件的类别数量可以从 5 到 35 个不等。每个组件的问题量可以从每月 200 到 1200 个不等。

组件 A 每月可能有 5 个类别和 400 个问题，组件 B 可能每月有 25 个类别和 1000 个问题。

我正在尝试建立指导/方法/公式，说明需要在基本事实中判断多少问题来衡量模型的准确性。

任何指导将不胜感激。