我有 5000 个职位描述的数据集,其中只有 200 个职位的要求英语水平分数范围在 0 到 9 之间,我想预测剩余的 4800 个职位要求的英语水平分数?在这种情况下如何使用聚类或多分类?谢谢
如何处理大量未标记的目标数据集?
数据挖掘
nlp
聚类
多类分类
2022-03-04 09:20:32
1个回答
您可以按照通常的方式进行:在 200 个标记实例上进行训练,在剩余的 4800 个实例上进行测试。但实际上,您可能应该首先保留一个标记的测试集来评估性能,或者在 200 个实例上使用交叉验证。
但是,您可能会遇到更严重的问题:我不清楚是否可以通过这种方式预测英语要求的水平。要么它在描述中明确提到,然后它只是一个提取它的问题,或者它不是并且没有办法知道它。
其它你可能感兴趣的问题