我正在尝试将线性模型拟合到价格响应变量。许多预测变量主要由零组成。例如,一种可能的预测变量是“钻孔”。没有多少零件有钻孔,但如果他们这样做,它会影响价格是有道理的。我正在使用caret包R来训练模型并选择适当的变量。我已经删除了所有方差为零的变量。
我发现了很多关于具有许多零和零通货膨胀模型的响应变量的计数数据的文献。但我想知道的是,应该如何处理具有许多零(许多不是计数数据)的解释变量?有适当的转变吗?还是因为我处理的是解释变量而不是响应变量,所以允许使用许多零的解释变量?
我正在尝试将线性模型拟合到价格响应变量。许多预测变量主要由零组成。例如,一种可能的预测变量是“钻孔”。没有多少零件有钻孔,但如果他们这样做,它会影响价格是有道理的。我正在使用caret包R来训练模型并选择适当的变量。我已经删除了所有方差为零的变量。
我发现了很多关于具有许多零和零通货膨胀模型的响应变量的计数数据的文献。但我想知道的是,应该如何处理具有许多零(许多不是计数数据)的解释变量?有适当的转变吗?还是因为我处理的是解释变量而不是响应变量,所以允许使用许多零的解释变量?
您正在关注零作为几个预测变量分布的一部分,但建模的核心问题包括(a)您拥有什么样的响应变量以及(b)您期望响应与预测变量或解释变量之间的关系是什么.
除了直接对数变换外,预测变量本身的零点几乎不排除。
根据您的描述,起点是价格是响应,价格必然是积极的。这立即暗示了一个带有对数链接的回归模型,很可能是泊松回归。(价格不是一个计数的事实在这里是次要的。参见例如http://blog.stata.com/tag/poisson-regression/及其文献以获得解释。)
由此,如何表示您的预测变量取决于它们与响应的关系与其边际分布一样多,甚至更多。您的帖子没有提供任何信息来指导建议,但我会先将它们包括在内,然后考虑您是否需要其他表示形式,例如根、平方、指标变量集。