您应该在建模中使用基于意见的变量吗?(如果预测得好)

机器算法验证 回归 特征选择 相互作用
2022-03-26 06:09:56

我正在使用逐步回归来预测客户是否会捐款。

我在建模中使用了许多变量,并且一个名为 perception_rating 的变量非常重要。现在这个变量是主观的,是律师根据他们对捐赠者价值多少的想法给出的评级(例如昂贵的汽车、大房子、更高的评级)。它背后没有科学或推理,它只是感知和非常主观虽然我认为我不应该使用它,但它似乎是一个很好的预测器。我应该使用这个变量吗?

2个回答

我同意诺亚的观点;这本身并不是一个技术统计问题。有几个问题你需要有一个明确的答案。

你有一个“一致的”主观评价吗? 假设您的培训数据来自现有员工的意见,那么对新员工的评估是否会有相同的意见?如果在您的模型实施阶段之后存在不一致的意见和评级,那么您就无法再推断该功能的性能,这确实是个问题。如果您决定使用它,我认为这可能是最有问题的假设。

你的建模目标是什么? 如果目标只是最大化模型的预测能力,那么您有正当理由使用它。

还有其他业务限制吗? 有时即使您有一个重要的预测器,由于某些业务和法律限制,您也无法使用它。例如,如果你要建立一个信用模型来预测金融部门的贷款违约,你不能使用年龄和性别(在美国)......等。

包含变量是否合乎道德? 这个问题可能会让你的建模更高标准;这取决于您的业务领域的上下文。

潜在的解决方案: 是否可以从另一个变量中得出估计值?例如,您有捐赠者的地址吗?如果是这样,使用地址作为中间变量并估计捐赠者的净资产(Zillow's Zestimate)可能是一个好主意。

PS关于逐步回归有一个讨论得很好的话题;你应该在这里查看帖子

如果您使用逐步回归,您可能会犯 I 类错误并利用机会,因此在没有交叉验证样本的情况下解释它的结果时要小心。此外,如果这个变量与样本中的另一个变量(例如财富)高度相关,那么它出现的重要性而不是其他变量的事实可能是偶然的。

也就是说,是否在模型中包含这个变量取决于模型试图做什么。如果要使用它来最佳地预测新数据集中的结果,那么当然,请使用您拥有的每个有助于这样做的变量。变量的含义无关紧要。

如果您试图推断预测变量与人口结果之间的关系,那么这个变量对解释个人特征和他们的捐赠决定没有多大帮助。相反,它应该暗示您需要收集有关感知的常见原因和捐赠倾向的额外数据。例如,也许某人的工作会影响旁观者对其财富的看法以及他们捐赠的决定,而与他们的实际财富无关。将其作为预测变量将创建一个具有更多解释力的模型。

一般来说,这是一个实质性问题而不是统计问题,取决于您想要做出的推断类型。您的模型是否旨在在外部样本中进行最佳预测?它是为了解释结果的差异吗?它是否意味着代表预测结果之间的因果关系?如何建模以及应该在模型中包含哪些变量取决于这些问题的答案。