我有需要分类的非结构化问题文本(多项分类)。根据组件(允许我对数据进行分段的结构化元素),每个组件的类别数量可以从 5 到 35 个不等。每个组件的问题量可以从每月 200 到 1200 个不等。
组件 A 每月可能有 5 个类别和 400 个问题,组件 B 可能每月有 25 个类别和 1000 个问题。
我正在尝试建立指导/方法/公式,说明需要在基本事实中判断多少问题来衡量模型的准确性。
任何指导将不胜感激。
我有需要分类的非结构化问题文本(多项分类)。根据组件(允许我对数据进行分段的结构化元素),每个组件的类别数量可以从 5 到 35 个不等。每个组件的问题量可以从每月 200 到 1200 个不等。
组件 A 每月可能有 5 个类别和 400 个问题,组件 B 可能每月有 25 个类别和 1000 个问题。
我正在尝试建立指导/方法/公式,说明需要在基本事实中判断多少问题来衡量模型的准确性。
任何指导将不胜感激。