数据集何时是时间序列?

机器算法验证 时间序列 术语
2022-04-14 02:54:05

时间是来自现实世界的概念。然而,在数学和统计学中,我们对数字进行操作。作为数学抽象的数字何时对应于“时间”?任何包含数值变量的数据集都可以按该变量排序。该变量甚至可以标记为t,但仅此一项不应使集合成为时间序列。

是一个时间序列:

  • 数据集本身的属性;或者
  • 基于我们的领域知识,我们对生成数据的过程的假设;或者
  • 一个标签,我们通过它来证明选择分析数据的工具是合理的;或者
  • 别的东西(什么?);或者
  • 以上的组合?

为了更清楚我的困惑是什么,下面是一些示例,以及我对它是否是时间序列的猜测:

  • 布朗运动:粒子在时间上的位置t部分取决于其在t1. 时间序列。
  • 月亮亮度:当时的亮度t取决于月球与太阳和地球的相对位置。这个位置是时间的函数,但时间与亮度无关。不是时间序列。
  • 流行:当时的感染人数t部分取决于当时的感染人数t1,因为已经感染的人会进一步传播感染。时间序列。
  • 多年来的道路事故死亡人数:死亡人数取决于汽车安全(安全带、安全气囊等)、道路质量、治安等。这些都随着时间而变化,但时间和过去的数字都不是造成当前数字的原因. 不是时间序列。

所以,如果我上面的猜测是正确的,那么“时间序列”似乎是一个因果关系的问题。如果过去实现了一个随机变量,xt1,xt2,...对其未来价值有因果影响,这是一个时间序列。如果对过去和未来的价值观有混淆,那就不是时间序列。然而,一般来说,我们事先并不知道因果关系和混杂因素(而且通常甚至在完成统计分析之后也不知道)。因此,我们不知道是否应该将数据集视为时间序列。

或者,如果时间可以用作未知混杂因素的代理,我们是否已经将数据视为时间序列?(在这种情况下,我上面的四个例子都是时间序列)。

或者。我在一条完全错误的道路上吗?

4个回答

这提出了一个关于“时间序列分析”范围的被低估的观点

我认为您在这里的时间序列分析中遇到了一个被低估的点,即从数学上讲,这些模型也可以合法地对由其他一些变量索引的数据进行建模,这些变量在现实世界中并不代表“时间”。如果我们从该领域使用的术语退后一步,只看模型数学的基本骨架,我们会发现“时间序列分析”领域使用具有以下一般特征的统计模型:

  • 有数据值xt由索引索引t, 后一个索引可以是整数(对于“离散时间”模型)或实数(对于“连续时间”模型)。

  • 该领域的模型可能会对指数产生确定性影响t(例如,线性趋势、多项式趋势、正弦波等)。

  • 该领域的模型可能包含“自回归”统计关系,由此我们可以编写一个方程xt取决于一个或多个值xr为了r<t和随机误差(可能还有一些外生变量)。

  • 尽管模型通常可以被操纵成其他形式,但模型的定义形式从不涉及引用较大索引值的效果t. 因此,例如,在数据值的定义方程中xt我们不会包含任何效果引用xr对于任何r>t. 从这个意义上说,模型的定义对待索引t作为一种排序,其中效果只能引用“先前”值(或其他变量的“当前”值)。

  • 在更复杂的模型中,我们可能有多个系列的数据值xt,yt,zt等,并且我们在它们之间合并了交叉引用效果。同样,这些模型遵循一般规则,即它们的定义形式仅引用“当前”或“先前”值。

现在,完全有可能遵循上述属性的模型可能有助于描述我们有数据的现象xt被索引引用t 那不代表时间在这种情况下,我们将使用“时间序列模型”对数据进行建模,即使数据集实际上不是时间序列——即引用数据的索引不引用时间。理论上,有可能t可能代表一个空间变量,或一个温度变量,或其他不是时间的东西。显然,时间序列分析中的模型仅在具有上述要求的“方向性”指标时才真正适用,因此某些类型的空间模型(具有在空间中双向操作的效果)将无法满足这些要求要求。

无论如何,如您所见,“时间序列分析”的范围在技术上不仅仅是按时间索引的数据模型。这是我在教授时间序列分析时试图向学生传达的观点之一,但由于用于描述模型的基于时间的术语的重复力量,它经常被遗忘。记住这是一件好事,以防您遇到统计问题,其中您的数据由另一个方向变量索引,您想使用具有上述属性的模型。在这种情况下,即使您的数据不随时间变化,您也可以使用“时间序列分析”。

为确保我回答您的标题问题,请注意任何包含按时间索引的一系列观察的数据集——根据定义——时间序列。这是关于变量含义的上下文问题t,而不是数学问题。这意味着您需要查看上下文和变量的含义,以确定您的数据集是否是时间序列。然而,“时间序列分析”领域是否适用的相关问题是该领域开发的模型形式是否适用于数据。绝大多数实际的时间序列数据集可以通过“时间序列分析”或回归中的模型进行富有成效的处理,但有时可以使用这些模型处理其他不涉及时间的数据集。

我想说最简单的答案是时间序列是任何以事件时间为特征的数据集。不需要以任何方式与任何事物相关联,但你也不能假设它不是.

这里的事件时间被定义为唯一的数字索引T对应于事件集的部分排序,使得对于任何一对事件AB, 如果TA=TB然后AB并发到索引的“分辨率”。

这意味着仅将 Unix 时间戳报告到小时值是可以的,但单独将挂钟上的年份和 UTC 小时报告为整数是不行的 - 下午 1 点可以指任何天数中的同一小时。

事件时间作为索引具有一系列属性,使其不同于任何随机数字特征,甚至是可排序的。即使在这个词的常识中没有因果关系,Y2越来越与价值观相关Y1作为T2T1归零。在因果关系之上,数据生成过程实际上是一些(任意高或低)维度的马尔可夫链。

时间序列数据集只是通过时间收集的数据。为了将其称为时间序列,期货值是否是过去值的函数并不重要。所以在你的月亮亮度例子中,如果你测量亮度并记录测量时间,它就是时间序列数据。甚至每年的交通事故死亡人数也是时间序列数据。

假设我掷骰子 100 次并记下每次掷骰的结果,这个数据集也是时间序列。

现在,给定时间序列数据,要做的一件有用的事情是预测该序列的未来值。为此,一种方法是将时间序列建模为随机变量序列,并寻找这些变量之间的相关性,在时间序列术语中称为自相关。如果存在这种相关性,即使未来值和过去值之间可能没有因果关系,它也可以用于预测未来的值。请记住,相关性不是因果关系,但相关性在预测中仍然非常有用。

是获取有关时间序列数据以及您可以使用它做什么的更多信息的好地方。

我认为,在实践中,时间序列是一种方法,而不是一种数据类型,是一种方法,例如 ARIMA 开发的一种方法,用于解决数据按因果排序时的问题,因此 X 可以在不同时间点以不同方式预测 Y,以及自相关是一个问题。但这是另一种说法,我猜如果自相关与时间相关,并且预测变量对响应变量的影响随时间(在不同的滞后)发生变化,那么您就有时间序列数据。