机器算法验证 - 在社会科学中何时以及如何使用权重进行序列分析？ - 吾爱随笔录

序列分析中的加权

到目前为止，我几乎没有找到解决序列分析加权问题的论文（例如使用最优匹配算法）。序列分析通常包括几个步骤：

设置或计算替代和插入/删除成本，
距离矩阵的计算和
以下聚类分析或差异分析[1]。

至少，R-package TraMineR（参见 Gabadinho et al. 2010 和 Gabadinho et al. 2011, p. 11）和 Laurent Lesnard 的 Stata-ado SEQCOMP使得在步骤 1 和 3 中包含权重成为可能。
此外，Lesnard明确建议在步骤 1 和 3 中使用样本权重：

“样本权重应该只用于计算转移矩阵，因此是替代成本。而不是计算转移的数量，它只是应该考虑的转移的加权数量。匹配过程本身，即比较对序列，不需要任何权重；根据定义，它是一对一的过程。但是，应该打开样本权重来解释结果，例如，如果使用聚类分析，则获得的聚类的大小必须是加权。”
Lesnard（2010：415，尾注 12）

开放式问题

尽管如此，文献中似乎没有达成共识，何时需要或使用哪些权重。

您认为在序列分析中应用权重的最佳理由是什么？
什么时候应该对序列进行加权？
您是否使用横截面抽样权重或纵向权重来考虑抽样概率以及小组流失？
如果您有不平衡的面板数据，您如何应用权重？
TraMineR 中权重的使用有据可查；但是你有在 Stata-ado 中使用权重的例子吗？

参考

Gabadinho、Alexis、Gilbert Ritschard、Matthias Studer 和 Nicolas S. Müller (2010)：使用 TraMineR 包在 R 中挖掘序列数据：用户指南，日内瓦大学。
Gabadinho、Alexis、Gilbert Ritschard、Nicolas S. Müller 和 Matthias Studer（2011 年）：使用 TraMineR 分析和可视化 R 中的状态序列，在：统计软件杂志，卷。40，第 4 期，第 1-37 页。
Lesnard, Laurent (2010)：设定最优匹配成本以揭示同时代的社会时间模式，载于：社会学方法与研究，卷。38，第 3 期，第 389-419 页。
Studer、Matthias、Gilbert Ritchard、Alexis Gabadinho 和 Nicolas S. Müller（2011 年）：状态序列的差异分析，在：社会学方法和研究中。卷。40，第 3 期，第 471-510 页。

_{[1] 见 Studer 等人。（2011）介绍了差异分析，这是一种类似于距离矩阵的方差分析方法。}