在谈到纵向数据时,我们可能会反复引用从同一受试者/研究单位随时间收集的数据,因此同一受试者内的观察结果存在相关性,即受试者内相似性。
当谈到时间序列数据时,我们也指的是在一系列时间收集的数据,它似乎与上面提到的纵向设置非常相似。
我想知道是否有人可以在这两个术语之间提供明确的说明,有什么关系以及有什么区别?
在谈到纵向数据时,我们可能会反复引用从同一受试者/研究单位随时间收集的数据,因此同一受试者内的观察结果存在相关性,即受试者内相似性。
当谈到时间序列数据时,我们也指的是在一系列时间收集的数据,它似乎与上面提到的纵向设置非常相似。
我想知道是否有人可以在这两个术语之间提供明确的说明,有什么关系以及有什么区别?
我怀疑是否有广泛的数据分析师同意的严格、正式的定义。
然而,一般而言,时间序列意味着在很长一段时间内定期观察到的单个研究单元。一个典型的例子是一个国家几十年甚至一百多年的年 GDP 增长。对于为私营公司工作的分析师来说,这可能是公司整个生命周期内的每月销售收入。因为有很多观察结果,所以对数据进行了非常详细的分析,寻找不同时期的季节性(例如,每月:在人们获得报酬后的月初销售量增加;每年:11 月和12 月,当人们在圣诞节购物时),以及可能的政权更迭。正如@StephanKolassa 所说,预测通常非常重要。
纵向通常是指在大量研究单元上进行较少的测量。一个典型的例子可能是药物试验,其中有数百名患者在基线(治疗前)测量,接下来的 3 个月每月测量一次。在本例中,每个单元只有 4 个观察值,无法尝试检测时间序列分析人员感兴趣的特征类型。另一方面,患者可能随机分为治疗组和对照组,因果关系可以推断一次不独立问题已得到解决。正如这表明的那样,不独立通常被认为几乎是一种麻烦,而不是主要的兴趣特征。
数据集大致分为三种:
这两个术语可能与 OP 假设的方式无关——即,我认为它们不是竞争的分析模式。
相反,时间序列分析描述了一组可能对分析纵向研究中的数据有用的较低级别的技术。
时间序列分析的研究对象是一些时间相关的信号。
大多数分析和建模/预测这些与时间相关的信号的技术都是建立在这些信号可分解为各种组件的前提下的。最重要的两个是:
循环组件(例如,每日、每周、每月、季节性);和
趋势
换句话说,时间序列分析基于利用时间相关信号的循环特性来提取基础信号。
什么是纵向数据?
纵向数据,有时也称为面板数据,在不同时间点跟踪同一样本。样本可以包括个人、家庭、机构等。相反,重复的横截面数据也提供长期数据,随着时间的推移对不同样本进行相同的调查。
与重复的横截面数据相比,纵向数据具有许多优势。纵向数据允许测量样本内随时间的变化,能够测量事件的持续时间,并记录各种事件的时间。例如,假设失业率长期居高不下。人们可以使用纵向数据来查看同一组个人是否在整个期间保持失业,或者不同组的个人是否在一段时间内进出失业。