我正在考虑一个问题,即使用线性回归预测客户的日志(支出)。
我正在考虑将哪些特征用作输入,并想知道是否可以将变量的百分位数用作输入。
例如,我可以使用公司收入作为输入。我想知道是否可以改用公司收入百分位数。
另一个例子是分类行业分类器 (NAICS) - 如果我要查看每个 NAICS 代码的中位数支出,然后将每个 NAICS 代码分配给“NAICS 百分位数”,那会是我可以使用的有效解释变量吗?
只是想知道在使用百分位数时是否有任何问题需要注意?它在某些方面是否等同于一种特征缩放?
我正在考虑一个问题,即使用线性回归预测客户的日志(支出)。
我正在考虑将哪些特征用作输入,并想知道是否可以将变量的百分位数用作输入。
例如,我可以使用公司收入作为输入。我想知道是否可以改用公司收入百分位数。
另一个例子是分类行业分类器 (NAICS) - 如果我要查看每个 NAICS 代码的中位数支出,然后将每个 NAICS 代码分配给“NAICS 百分位数”,那会是我可以使用的有效解释变量吗?
只是想知道在使用百分位数时是否有任何问题需要注意?它在某些方面是否等同于一种特征缩放?
如果您的模型需要对公司收入进行某种竞争,您可以使用百分位数。对数百分位数似乎更有意义,分位数不会是线性的,或者我想是这样。
在这个故事中,您将 ln(%) 的公司收入纳入观察公司。故事是,收入高的公司的声誉比收入低的公司好,这种“比竞争对手拥有更多”的关系是相关的,而不是收入水平本身。我可以将其视为公司认可和品牌推广的重要组成部分。