如何从线性回归斜率确定趋势强度?

机器算法验证 回归
2022-04-07 04:34:30

我是统计学的新手,对我的基本问题感到抱歉。我有一个数据集和从该数据计算的简单线性回归方程:

f(x) = ax + b

我想知道我是否可以(如果可以)使用a此线性回归中的斜率( )来确定数据集趋势的强度?我需要知道趋势是增长还是下降以及有多强(陡峭)。

我不确定如何计算它,因为没有切线值的最大值,所以我无法确定它是强趋势还是弱趋势。我希望我正确地描述了我的问题。

编辑:我正在做我的学校项目,我想完成这个:有一个数据集,在我的情况下,这些数据集包含一个业务数据(月销售额、订单数量、平均订单大小等)。我想为这些数量中的每一个提供一个简单的指标,能够以这种方式直观地描述该数据集的趋势(强度):

  • 增长(绿色) - 如果增长强劲,例如在最大增长的 10 - 100% 之间
  • 低增长(黄色) - 如果增长较弱,例如在最大增长的 0-9% 之间
  • 不动(灰色) - 不动(当回归没有斜率或非常小时)
  • 低落差(黄色) - 落差在最大落差的 0-9% 之间
  • 掉落(红色)- 掉落强烈,最大掉落的 10-100%

PS 在我的应用程序中,我有另一个视觉指示器,但它以不同的方式描述数据集 - 特别是在特定时间,它是如何工作的 - 我计算整个数据集的中值,并在特定点将数据集中的值与中值进行比较,确定描述此特定值状态的颜色。整个数据集我需要一些简单的解决方案

附加信息:为了描述我要解决的问题,我创建了这两个图,它们绘制了我的数据集的子集。在标题中有这个数据子集的斜率值。两个斜率都是负数,因此该数据的趋势正在下降。这些信息我可以自己确定,但两种趋势并不相同。第一个趋势强于第二个(斜率值也更高)。我需要知道是否有一些比例或尺寸,根据我可以标准化斜率值并在我的应用程序中说,例如描述这个斜率值的数据集不是那么重要,因为斜率最大为最大值的 5%,但是这个斜率在其最大负值的 75%,所以要小心并注意这个趋势!

我需要知道的是:

线性回归方程中斜率参数的最小值和最大值是多少?.

如果我知道斜率值的比例,我可以计算出我要问的一切。我可以预处理数据并将它们标准化或做任何其他需要的事情。

在此处输入图像描述

3个回答

一些注意事项:通常人们将方程写为您的版本是可以的,但当您看到其他版本时可能会感到困惑。y=b0+b1Xy=a+bx

在您的等式中,衡量每增加 1 个单位会增加多少。如果为正,则预计会随着的上升而上升;如果为负数,则反之。因此,是斜率的度量。但是是与单位相关的:如果将的单位从毫米更改为米,会发生变化,但其含义不会发生变化。af(x)xaf(x)xaaaxa

有一些衡量关系强度的方法。最常见的是,这是的线性关系解释R2f(x)x

编辑关于新问题

趋势单位时间出现_ 有几种方法可以标准化单位。您可以,也许是最简单的,从起点使用百分比变化。这是经常做的事情,例如,用股票市场平均值的趋势来适应它们不同的初始值。

R^2 是拟合误差的缩放度量。这是有关它的更多信息。 http://mathworld.wolfram.com/CorrelationCoefficient.html

虽然 R^2 很有用,但没有完美的衡量标准。他们每个人都有长处和短处。我发现我更多地使用像 Akaike Information Criterion 这样的度量,因为我有许多符合 R^2 一致的候选分析函数,我需要找到它们的混合和权重,这更有可能表明潜在的性质系统的。

相关链接包括: http ://www.csse.monash.edu.au/~dschmidt/ModelSectionTutorial1_SchmidtMakalic_2008.pdf

斜率可以从 -infinity 变为 +infinity,尽管在实践中它受到业务经济性的限制。如果您正在销售黄油,并且您的生产能力有限,那么您可以拥有的最大销售数量受到该产能或历史销售不足产能加上存储的总和的限制。一家企业不能损失无限的金钱,只能损失其全部净资产,再加上其信用评级所能承受的所有债务。您的负斜率将受到此类业务现实的限制 - 但它们将特定于您的业务。从理论上讲,它可以是正无穷和负无穷之间的任何值。在实践中,如果您选择正确类型的值 - 正确类型的域和范围,那么您的斜率将在一个有用的范围内。

您可能会考虑两种不同的 EWMA(指数加权移动平均线)函数,其中一个的周期与另一个不同。当短期高于长期时,会出现某种程度的上涨(正),而当长期处于顶部时,则会出现下跌。这是一个非常简单的指标,但它可以响应数据。单个线性拟合不能快速响应不断变化的业务现实,尤其是当它在较大的时间跨度或样本值上运行时。

在同一线性模型中比较两个自变量的相对“强度”的一种方法是将它们除以它们各自的标准偏差(即使用 z 分数)。它仍然不是一个苹果对苹果的比较,但它可能是有用的,例如,看看 X 增加 1 个 SD 是否会导致 Y 的增加大于 C 的 1 个 SD - 特别是如果 SD 是一个有用的描述符两个 IV(例如,它们是正态分布的)。