我有一个数据集,其中包含 6 个关于潜在销售机会的变量(关闭概率、预计关闭前的天数、机会年龄等)。其中 2 列是分类的,4 列是连续的。我希望根据这些变量为每个机会创建一个综合得分。
我曾尝试根据任意范围手动为每列分配分数,但综合分数最终过于相似。我想优化每个变量的评分。有没有办法通过机器学习来做到这一点?我想找出哪些变量最重要,或者从其他变量中“脱颖而出”最多。我也想看看是否有任何变量是多余的。
我有一个数据集,其中包含 6 个关于潜在销售机会的变量(关闭概率、预计关闭前的天数、机会年龄等)。其中 2 列是分类的,4 列是连续的。我希望根据这些变量为每个机会创建一个综合得分。
我曾尝试根据任意范围手动为每列分配分数,但综合分数最终过于相似。我想优化每个变量的评分。有没有办法通过机器学习来做到这一点?我想找出哪些变量最重要,或者从其他变量中“脱颖而出”最多。我也想看看是否有任何变量是多余的。
如果您没有观察结果,则无法找到哪些变量更重要(预测什么很重要?«什么»是目标值)。
我鼓励您收集一些带有目标的记录(特征数量的 20 倍是一个很好的起点),这样算法就可以了解哪些特征与您想要的特定结果相关。
但是,已经可以计算变量之间的相关性并进行一些数据分析以了解每个特征包含多少方差。