如何测试和处理回归均值?

机器算法验证 回归 多元分析 观察研究
2022-04-02 14:33:45

我正在处理一个大型的行为数据数据集,我将其(事后)视为时间序列实验设计,以寻找单个因变量作为治疗结果的可靠变化。数据来自用户与网站超过 10 年的互动。从时间 1 到时间 2 有一个整体改善,p<.001。但是平均效应有一个回归(也见这里),即在时间 1 具有低 DV 的那些在时间 2 增加,而在时间 1 具有高 DV 的那些在时间 2 减少。(这可以在图表上清楚地看到。 ) 我不知道如何进行分析。我可以量化回归到平均效应并从中确定治疗效果如何超过回归效应?

以下是有关该研究的一些其他详细信息:

  • 该研究的数据来自一个支持小组网站,用户在该网站上写下生活问题。志愿辅导员阅读条目并以支持和建议回应用户。有10年的数据;n=~200,000。

  • 我的研究是一项自然实验,因为它使用的网站数据并非出于研究目的而收集的。最大的问题是:没有对照组。

  • 志愿顾问还(私下)用主题、属性和严重性标签标记用户的书面条目。我对辅导员进行了一项调查,要求他们对这些标签的相对严重程度进行评分(例如,“抑郁-恐慌”~0、“学校担忧”~2、“关系快乐”~5)。调查结果和应用于每个写作条目的标签用于导出用户在写作时的状态的简单代理。该代理在整个样本中进行了归一化,具有准正态分布,并被视为 IV。

  • 治疗只是使用网站(写生活问题和接受社会支持),所以 DV 从写条目 1 到条目 2。主要效果是 IV 确实从条目 1 到 2 整体增加,但如上所述有一个回归到平均效应。

  • 建立主效应后,我有兴趣研究各种交互变量:用户的语言选择、​​网站交互的细节、辅导员响应的时间等。

2个回答

更新:如果您对平均效果有真正的回归,因为它和治疗效果随着时间的推移同时发生并且对于需要治疗的人具有相同的方向性,则平均回归与治疗混淆,因此您不会能够估计“真实”的治疗效果。

这是一组有趣的数据,我认为您可以用它进行一些分析,但是您将无法将用于生成数据的方法视为实验。我认为您将Wikipedia 上概述为自然实验的内容,虽然有用,但这些类型的研究有一些在对照实验中没有发现的问题。特别是,自然实验缺乏对自变量的控制,因此可能无法确定因果关系,尽管仍然可以得出有关相关性的结论。

在您的情况下,我会担心混淆变量这是可能影响结果的可能因素列表:

  1. 可能您最大的困惑是您不知道用户远离网站的生活中还发生了什么。根据他们在网站上写的内容,一个用户可能会意识到他们的处境有多糟糕,他们可能会利用他们周围的资源(家人、朋友)来寻求支持,因此帮助不仅限于在网站上获得的帮助。另一位用户,可能由于他们的生活问题,可能会与家人和朋友疏远,而网站就是他们所拥有的全部支持。我们可能预计这两个用户的阳性结果时间会有所不同,但我们无法区分它们。
  2. 我假设网站用户在他们想要的时候访问了网站(这对他们来说很好),但这意味着你对他们的问题的结果可能无法反映他们生活问题的数量和严重程度,因为我假设他们没有定期访问该网站(与通常定期安排的面对面咨询约会不同)。
  3. 他们写作的详细程度将反映他们的写作风格,并且不太可能等同于他们在面对面的咨询会议中表达的内容。面对面辅导员也不会使用非语言提示来帮助评估其客户的状态。随着时间的推移,这些变化在那些写得更少、标签应用到内容上的用户中是否更明显?
  4. 如果同一帖子中有许多低分和高分标签(例如,某人在学习上有问题并且他们处于幸福的关系中),代理是如何受此影响的,例如是一个简单的平均值score 涵盖每个帖子的所有标签分数?如果这个人面临一个特别非常消极的问题,这可能会影响你的分数,但他们提到的大部分其他内容都是积极的。在面对面的环境中,咨询师可以专注于消极的一面并找出,例如找出为什么这个人如此沮丧,尽管他们的大部分生活似乎都很顺利,但在网站的情况下,你只有什么他们写。因此,用户撰写帖子的方式可能意味着采用整体代理可能效果不佳。
  5. 如果该网站是针对有生活问题的用户,我不确定您为什么希望在他们的第一篇文章中包含得分为非常(快乐?成功?)的用户。这些人似乎不是该网站的目标受众,我不确定您为什么要将他们与有问题的人放在同一组中。例如,快乐(?)的人似乎不需要治疗,所以我没有理由想到为什么网站干预适合他们。我不确定用户是否被分配到该网站作为治疗,例如,在咨询顾问之后。如果是这样的话,我想知道为什么那些因为看到辅导员而感到沮丧的人会在一个旨在帮助他们改善精神状态的网站上发表非常积极的帖子。假设有这个预咨询阶段,也许他们所需要的只是一次咨询预约。无论如何,我认为这与最初发布显示生活问题的帖子完全不同,目前我会省略它们,因为它们似乎是“抽样错误”。通常在评估治疗效果时,我们只选择似乎需要治疗的人(例如,在抗抑郁药试验中我们不包括快乐满足的人)。
  6. 用户帖子中可能存在一些社会期望偏差。
  7. 您是否对标签进行过任何评估者间的可靠性测试?如果不是,那么评分的某些问题是否与某些标签的偏见有关?特别是,当辅导员刚刚开始并正在学习如何标记帖子时,可能会出现一些质量问题,就像我们任何人学习新事物时都会出现质量问题一样。另外,是否有些辅导员倾向于放置更多标签,有些则倾向于放置很少的标签?您的分析需要所有帖子的标签保持一致。

这些只是基于你的帖子的建议,我很可能误解了你的一些研究,或者做出了一些不正确的假设。我认为你在帖子末尾提到的因素——用户的语言选择、​​网站互动的细节、辅导员回应的时间——都非常重要。

祝您学习愉快。

我在任何方面都不是统计学的权威,但我是否可以建议使用其他研究来估计回归到你的平均值的程度?在理想的世界中,您会使用对照组估计回归到均值的程度,但由于您没有对照组,因此您可能需要从文献中提取一个。

在心理学文献中的某个地方,一定有人谈到回归到平均值的程度,这可以预期在与您的生活不太相似的人的生活幸福中(也许是访问咨询服务的大学生)。如果一个学生的幸福感在第 10 个百分位,可以预期在 6 个月内回归到第 20 个百分位,仅通过回归到平均值,也许您可​​以对自己数据中的人做出类似的假设。

我强调这种方法会(并且应该)降低您分析的可信度,因为您将用于比较的假设大学生可能在非常重要的方面与使用您的在线论坛的人不同,但它可能是最好的处理糟糕情况的方法。

(这个建议的灵感来自我对鲁宾因果模型的阅读,它为思考观察性研究提供了一种灵活的方式:通过巧妙的假设来识别反事实,并在你进行的过程中警告它们。)