我正在研究一个二进制分类问题,其中混合了连续变量和分类变量。
分类变量是我使用get_dummiespandas 中的函数创建的。
现在我的问题是,
1)我看到有一个名为的参数drop_first,它通常被赋予 value True。为什么我们必须这样做?假设出于示例的目的,我们在性别列中有 2 个值,即Male, Female。如果我使用drop_first=True,它只返回一列。例如,如果我的特征重要性作为一个重要特征返回gender_male,我是否可以推断出只有性别会影响结果(因为男性表示为 1,女性表示为 0)和女性(0)不影响模型结果?还是 0 通常在 ML 模型预测中不起任何作用?10gender_maleMale
2) 假设我的性别有 3 个值,例如Male, Female, Transgender。在这种情况下,如果我使用drop_first=True,它只会返回两列
gender_male带 1 和 0 - 这里0代表Transgender对吗?
gender_female带 1 和 0 - 这里0代表Transgender对吗?
3)不使用的缺点是什么drop_first=True?仅仅是关于列数的增加吗
你能帮我解决上述问题吗?