在社会科学中何时以及如何使用权重进行序列分析?

机器算法验证 r 状态 加权抽样 电车 序列分析
2022-03-30 10:39:17

序列分析中的加权

到目前为止,我几乎没有找到解决序列分析加权问题的论文(例如使用最优匹配算法)。序列分析通常包括几个步骤:

  1. 设置或计算替代和插入/删除成本,
  2. 距离矩阵的计算和
  3. 以下聚类分析或差异分析[1]。

至少,R-package TraMineR(参见 Gabadinho et al. 2010 和 Gabadinho et al. 2011, p. 11)和 Laurent Lesnard 的 Stata-ado SEQCOMP使得在步骤 1 和 3 中包含权重成为可能。
此外,Lesnard明确建议在步骤 1 和 3 中使用样本权重:

“样本权重应该只用于计算转移矩阵,因此是替代成本。而不是计算转移的数量,它只是应该考虑的转移的加权数量。匹配过程本身,即比较对序列,不需要任何权重;根据定义,它是一对一的过程。但是,应该打开样本权重来解释结果,例如,如果使用聚类分析,则获得的聚类的大小必须是加权。”
Lesnard(2010:415,尾注 12)

开放式问题

尽管如此,文献中似乎没有达成共识,何时需要或使用哪些权重。

  • 您认为在序列分析中应用权重的最佳理由是什么?
  • 什么时候应该对序列进行加权?
  • 您是否使用横截面抽样权重或纵向权重来考虑抽样概率以及小组流失?
  • 如果您有不平衡的面板数据,您如何应用权重?
  • TraMineR 中权重的使用有据可查;但是你有在 Stata-ado 中使用权重的例子吗?

参考

  • Gabadinho、Alexis、Gilbert Ritschard、Matthias Studer 和 Nicolas S. Müller (2010):使用 TraMineR 包在 R 中挖掘序列数据:用户指南,日内瓦大学。
  • Gabadinho、Alexis、Gilbert Ritschard、Nicolas S. Müller 和 Matthias Studer(2011 年):使用 TraMineR 分析和可视化 R 中的状态序列,在:统计软件杂志,卷。40,第 4 期,第 1-37 页。
  • Lesnard, Laurent (2010):设定最优匹配成本以揭示同时代的社会时间模式,载于:社会学方法与研究,卷。38,第 3 期,第 389-419 页。
  • Studer、Matthias、Gilbert Ritchard、Alexis Gabadinho 和 Nicolas S. Müller(2011 年):状态序列的差异分析,在:社会学方法和研究中。卷。40,第 3 期,第 471-510 页。

[1] 见 Studer 等人。(2011)介绍了差异分析,这是一种类似于距离矩阵的方差分析方法。

1个回答

我假设您正在使用抽样权重来纠正代表性偏差。请注意,某些“数据提供者”要求您在出版物中使用权重。

在我看来,您应该始终使用权重进行描述性分析,以获得公正的结果。我认为这种分析有更多的共识。例如,描述性分析包括聚类分析、序列可视化、转换率的计算(以及因此基于它们的替代成本)。对于加权聚类分析,您可以查看WeightedCluster库和手册。

关于要使用的权重,我建议使用纵向权重,因为序列是为整个时期定义的,但这取决于确切的权重定义。要获得更一般的答案,您需要回答以下问题:

  • 我有什么样品(在什么时间,等等)?
  • 我想推广到哪些人群?

在某些面板中,纵向权重使用由波 t 定义的样本,并将其推广到第一波的总体。如果您想跟随第一波的演变,这就是您想要的。