我正在使用具有数百个特征的数据集。我希望使用原始数据集中的 7-10 个特征创建一个简单的机器学习模型。我的问题是这样的:
我可以使用哪些量化指标来确定某个功能对学习模型是否有用?
我一直在将目标均值在特征组上的分布与整个数据集的目标均值进行比较。例如,取一个二元特征 X 和一个二元目标。假设目标在整个数据集上的平均值为 0.10。
为了分析特征 X,我取特征 X 中每个组的目标均值。
mean (X=0) = 0.07
mean (X=1) = 1.15
通过这种方式,我可以观察到一个特征对目标的影响。
我知道人们必须使用一些更强大的指标来确定功能的强度。在学校里,我使用p检验来确定变量的统计显着性。DS / ML中有模拟吗?