我正在尝试创建一个分类器来预测某人是否会参加面试。每个数据点是针对单个候选人的,包含面试地点、候选人当前位置、工作技能要求、面试类型等详细信息。所有数据都是分类的。
还有一些你可能认为不会影响候选人出勤率的特征,例如婚姻状况。我最初的想法是,基于“常识”(我松散地使用这个术语),放弃这个功能,但我想采取更严格的方法来确定它的重要性。但是,我不确定什么是最佳实践。我如何确定这是否是可以删除的功能?
其次,即使预测能力有限,保留它是否有不利之处?除了创建一个更繁琐的模型之外,它是否会对预测的准确性产生不利影响?
谢谢。