我有一个疑问,例如执行标签编码并检查相关性是否更好,还是我应该首先执行相关性并进行标签编码?因为当我尝试两种方式时,我得到了不同的功能
关联和编码还是编码和关联更好?
数据挖掘
机器学习
预处理
相关性
编码
2022-03-08 14:38:20
2个回答
相关性适用于连续变量,例如 Pearson 相关性。不建议对分类或有序变量使用 Pearson 相关性。如果您正在对数据进行编码,我可以暗示它是一个分类变量。对于分类变量,您可以使用卡方独立性检验找到变量之间的关联(而不是相关性)。从某种意义上说,这个测试非常宽松,即使对于弱关联,它也会显示出低 p 值。为了进一步验证独立性卡方检验的结果,您可以计算 Crammers V-test,它会给出一个介于 0 和 1 之间的特定值。Crammers V-test 使分析变得容易。Crammers V-test 使用 Chi 分布。
1.它不会改变,除非你假设编码后特征的新类型,即标签编码不会使分类数据连续
2.不同的特征类型对需要不同的方法。事实上的 Pearson 系数适用于连续 - 连续特征。类似的阅读 - DS.SE
3。来自两种不同类型的相关方法的值不能直接比较,即 Pearson 的 0.75 并不意味着与 Crammer's V 的 0.75 相同的强度
其它你可能感兴趣的问题