最初,我想根据它们显示的应用程序模式为特定环境中的某些程序代码创建一个分类工具。我有 5 种不同的模式我想寻找,最终我的目标是提出某种关于这个编程环境的统计数据,以某种方式代表趋势(比如%40 的程序用于投票目的,有一个增加上个月的交易程序, ETC)。现在,经过数月的数据标记和训练模型,我终于获得了 5 个不同的模型,每个模型都有不同的模式,在不同的指标上有不同的分数(我对每个类都有相当不平衡的训练数据,所以只是为了让事情保持一致,总是试图同时查看不同的指标,如 f1、mcc、roc auc 进行比较)。
现在,我的问题是,当我将模型应用于我无法标记或查看的数据时,我的测试分数究竟能告诉我什么关于我的真实生活数据?是否可以使用我训练过的模型得出上述不同的统计数据,或者我是否仅限于我的训练和测试数据?是否至少可以在单个程序上提及某种概率,例如预计这是一个具有 %X 概率的投票程序?
如果您能帮我弄清楚如何从最终应用的角度解释测试结果,我将不胜感激。