我参加了其中一场黑客马拉松。那里的变量像 id、region、gender、age 等等。这是一个回归问题。我对变量进行了缩放。但我不确定如何分别处理 id 和区域代码、数字和序数变量等变量。它们对建模是否相关和重要?
“id”、“区域代码”等变量在预测建模中的重要性如何?
数据挖掘
机器学习
分类
回归
机器学习模型
2022-02-21 09:33:41
2个回答
根据您正在处理的问题,这些变量可能非常重要。有关问题设置的更多信息会很好。但是让我们假设,例如,您试图预测员工的平均收入(您的样本由特定公司的一群员工组成),而不是您可能希望将区域代码转换为虚拟变量。这使得评估工资是否取决于员工居住的地区成为可能。
根据 id 的格式,其中可能隐藏了一些信息。如果 id 是从员工数据库中提取的,那么它们可能包含有关员工开始在公司工作的日期的信息。一些创造力在这里发挥作用,但是当偶然发现这些变量时,寻找更多细节和选择总是值得的。
总之,当你开始处理一个新问题时,不要过多地查看变量的数据类型。探索数据并尝试理解变量的性质(名义、分类、区间等)。让你的创造力蓬勃发展,我相信你会玩得很开心:-)。
这取决于问题和数据。通常,在黑客马拉松中,您的数据中至少有数千个 id 和数百个区域代码,您的任务是在一个数据集上进行训练,并在另一个数据集上预测现有区域中的新客户。
在这种情况下,您可以排除 id 列。其他分类变量,如地区、年龄组、种族等,通常是相关的。区域代码可以用作分类变量,但它取决于区域的数量。如果您的数据中有数百个区域代码,请将这些代码映射到更大的区域。例如,假设您的数据包含所有美国县的区域代码。最简单的方法是将每个县映射到其各自的联邦州,并使用州而不是县。
其它你可能感兴趣的问题