回归模型中的离散变量?

机器算法验证 回归 相关性
2022-03-28 14:31:20

我知道从理论上讲,对于回归,Y 和因子都应该是连续变量。但是,我有一些离散因素,但同时显示相关性并且适合回归模型。

我正在研究能源消耗,我的因素是呼叫次数、传输的数据、温度、客户、建筑物的数量。唯一的连续变量是温度。

即使我有温度和订阅者因素,如果我的多元回归模型仍然适用,有什么建议吗?

相关性如何?我可以说客户数量和能源消耗之间实际上存在相关性吗?

谢谢你的帮助!

2个回答

应该更小心地使用“因子”这个词,因为对于一些统计学家和一些软件包来说,“因子”可能意味着分类变量(例如不同类型的治疗、性别、原籍国等)。“连续因子”听起来像“圆的角落”,把人们搞糊涂了。如果您将其描述为“离散自变量”,将来您可能能够更清楚地表达您的想法。

连续(数字非常精细以至于您无法命名确切的点)和离散(由整数组成)变量都被视为区间/比率。在线性回归分析中用作自变量时,它们的处理方式相同。辨别区间/比率变量的方法是询问变量中的每个单位增量是否在您希望测量的上下文中表示相同的增量。例如,从 35 度跳到 36 度与从 43 度跳到 44 度是一样的;这是相同数量的温差。同样,从 100 到 101 个订阅者的跳跃与从 1009 到 1010 个订阅者的跳跃相同。只要这是真的,您的该自变量的回归系数就有意义,因为您可以合理地将其解释为回归线的斜率。

当您混合有序数据时会出现一般混乱,例如那些 5 分的“您有多满意?” 问题。它们以整数表示,很容易与离散数据混淆。然而,规模的每一次跳跃并不一定意味着同样的事情。例如,从“4:开心”到“5:非常开心”的跳跃不一定与从“1:非常不开心”到“2:不开心”的跳跃相同。在这种情况下,不应将变量按原样放入回归中,而应区别对待(搜索“回归中的虚拟变量”以了解更多信息。)

To further understand the similarities between continuous/discrete interval and ratio variables, consider measurement precision. A continuous variable can only be measured to a certain level of precision, and as such, in reality, can only take a discrete set of values. (ie- if you are measuring with a tool of precision 0.1, the only values you will receive are 0.1,0.2,0.3, etc.)