我们的系统允许管理员管理大学课程数据库。这些课程有多个领域,如部门、标题和描述。
我正在添加向课程添加学习目标的功能。为了简化问题,假设学习目标只是标签。课程可以有多个相关的学习目标。所以像 CHEM 101 这样的课程可能有“化学”、“技术”、“科学”等等。
假设我可以将一门课程简化为一组功能,(我想使用关键字/词干/nlp?),这是什么问题,你会建议什么算法?它似乎与分类问题非常相似,但我想提供一个排序的建议列表,顶部是最相关的。
我们的系统允许管理员管理大学课程数据库。这些课程有多个领域,如部门、标题和描述。
我正在添加向课程添加学习目标的功能。为了简化问题,假设学习目标只是标签。课程可以有多个相关的学习目标。所以像 CHEM 101 这样的课程可能有“化学”、“技术”、“科学”等等。
假设我可以将一门课程简化为一组功能,(我想使用关键字/词干/nlp?),这是什么问题,你会建议什么算法?它似乎与分类问题非常相似,但我想提供一个排序的建议列表,顶部是最相关的。
这很可能是多个二元分类问题。
您必须构建与标签一样多的分类器,而不是只构建一个分类器。每个分类器的任务是预测某个标签是否存在。然后,可以通过调整精度曲线来学习标签特定的概率阈值,在该曲线上可以计算当然明智的精度召回。
每个标签的预测概率的百分位数可用于获得标签建议的有序(排序)列表。
这种将多类问题转换为多个二元分类问题的方法称为二元相关性。虽然它非常有效,但它假设标签本身是独立的。然而,为每个标签选择概率阈值以优化课程精确度召回曲线可能会导致标签中的建模依赖性。