我正在使用用户拥有一组技能的数据集。我有超过 500 项技能,我想知道将向量编码为特征的最佳方式是什么,例如,['java', 'python', 'c']将用户技能用作特征。
我考虑过单热编码,但我害怕维度的诅咒,因为我们有数百种技能。
关于如何处理这种情况的任何建议?
我正在使用用户拥有一组技能的数据集。我有超过 500 项技能,我想知道将向量编码为特征的最佳方式是什么,例如,['java', 'python', 'c']将用户技能用作特征。
我考虑过单热编码,但我害怕维度的诅咒,因为我们有数百种技能。
关于如何处理这种情况的任何建议?
我认为“一个热门”是显而易见的事情。500 个特征通常不是问题(如果你没有太少的观察)。在任何情况下,您都可以通过使用Lasso/Ridge来研究“缩小”功能。
可能您还可以研究降维,例如通过使用主成分 (PCA)。
你也可以做一些特征选择,因为你“踢出”没有太多预测能力或多余的特征(技能)。例如,您可以检查技能之间的(非常)高相关性,或者在拟合一些随机森林后删除不重要的技能。