如果您可以继续添加新数据(基于主要概念,例如区域,即邮政编码)并且模型的性能有所提高,那么当然是允许的……假设您只关心最终结果。
有一些指标会尝试指导您进行此操作,例如Akaike 信息准则(AIC) 或可比较的贝叶斯信息准则(BIC)。这些本质上有助于根据其性能选择模型,并因引入且必须估计的所有其他参数而受到惩罚。AIC 看起来像这样:
A I C =2k-2ln(大号^)
在哪里ķ是要估计的参数数量,即您应用的特征数量,因为每个特征在您的逻辑回归中都有一个系数。大号^是最大似然的最大值(相当于最优分数)。BIC 简单地使用ķ惩罚模型略有不同。
这些标准可以帮助告诉您何时停止,因为您可以尝试具有越来越多参数的模型,并简单地选择具有最佳 AIC 或 BIC 值的模型。
如果模型中还有其他与 ZIP 无关的功能,它们可能会不堪重负——这取决于您使用的模型。但是,他们也可能解释有关数据集的一些事情,这些事情根本不能包含在邮政编码信息中,例如房屋的建筑面积(假设这与邮政编码相对独立)。
在这种情况下,您可以将这些与主成分分析进行比较,其中一组特征解释了数据集中方差的一个维度,而其他特征解释了另一个维度。因此,无论您拥有多少与 ZIP 相关的功能,您都可能永远无法解释占地面积的重要性。