如果我想建立一个回归模型,其中以十亿为单位的销售额是因变量,而我的自变量包含非常低的值,例如下雨天(最高数字是 15)。我的问题是,如果我对原始数据进行回归,是否有任何问题,或者我应该进行一些转换,从而使我的变量具有可比性?你会建议哪种转变?在这里使用数据的对数变换是否明智?
我试图找到类似的讨论,但很难做到。
如果我想建立一个回归模型,其中以十亿为单位的销售额是因变量,而我的自变量包含非常低的值,例如下雨天(最高数字是 15)。我的问题是,如果我对原始数据进行回归,是否有任何问题,或者我应该进行一些转换,从而使我的变量具有可比性?你会建议哪种转变?在这里使用数据的对数变换是否明智?
我试图找到类似的讨论,但很难做到。
转型就像毒品……有些对你有好处,有些则不然。
通过缩放转换数据几乎总是一个好主意。转换时间序列数据(例如获取差异)可能不是一个好主意,因为无根据的差异实际上可以将结构注入数据中。只要您有动力找出数据异常的原因并启用包括异常值可能性在内的置信限,通过用清理值替换异常值来转换数据,从而获得对异常稳健的更清晰图片也是一个好主意。请参阅@Aksakal 关于如何为包含异常值的时间序列拟合模型的非常明智的话
像对数或任何其他假设的变换这样的功率变换可能不是一个好主意。请参阅何时(以及为什么)应该记录(数字)分布的日志?讨论何时以及为什么应该转型。需要注意的是某些模型目标,即需要转换的特定模型,但这些通常是特殊目的且很少见。
就模型的充分性而言,没有特别的理由要转换您的数据。但是,您可能希望重新调整结果以使系数处于更易于管理的范围内。例如,您可以将其表示为数百万或数千,而不是将销售额作为原始计数。这将产生将雨天的系数除以 1000 或 1000000 的效果,这可能使其看起来更合理。这通常是针对预测变量完成的,但根据您的描述,这是需要注意的结果。
您的模型充分性没有改变,但这很重要。
正如评论员所指出的,我假设销售额是数十亿个货币单位,如果是以不同价格销售的不同产品的销售额,则很可能满足线性回归的通常假设。但是,如果它是数十亿把雨伞并因此计数,那么像泊松这样的不同模型可能是合适的。