我有一个包含 330 个样本和每个样本 27 个特征的数据集,其中逻辑回归有一个二元类问题。
根据“如果十个规则”,我需要至少 10 个事件才能包含每个功能。不过,我有一个不平衡的数据集,有 20% 的正类和 80% 的负类。
这只给了我 70 个事件,使 Logistic 模型中只包含大约 7/8 个特征。
我想评估所有特征作为预测变量,我不想手动选择任何特征。
那么你有什么建议呢?我应该做出所有可能的 7 种功能组合吗?我是否应该使用关联模型单独评估每个特征,然后只选择最好的作为最终模型?
我也很好奇分类和连续特征的处理,我可以混合它们吗?如果我有一个分类 [0-1] 和一个连续 [0-100],我应该标准化吗?
我目前正在使用 Python。
非常感谢你的帮助!