非随机小样本——我能得到什么结论?

机器算法验证 样本量 样本 非参数
2022-03-27 17:45:33

在我的论文中,我开发了一种心理治疗方法来解决攻击性/孤僻儿童的社交能力。

我获得了 10 个科目的样本(不是随机的,教授根据他们在课堂上的行为来选择孩子),我分成两组,每组 5 人(同样不是随机的,我无法选择,孩子来自不同的学校而且我无论如何也无法进行随机选择)。其中一组被设计为实验组,另一组被设计为控制组。我已经向每个孩子、家长和老师申请了一份问卷,以在应用该方法之前和最后评估社会问题。

现在我的问题是:我的目标不是概括结果,因为这是一项探索性研究,而是比较每个组在两个时刻的结果。抽样问题和样本量小会影响任何结果吗?或者我可以做任何测试吗?是否可以使用参数测试?

提前致谢

3个回答

胡伯是对的,从技术上讲,如果不使用随机化,统计推断将不准确。然而,在实践中,随机抽样通常是不可能的,因此人们对非随机样本使用推断并将结果推广到抽取样本的整个群体是常见的(也是不可避免的和不幸的)实践。

您可以自信地得出的实际结论是简单地描述样本,而不将结果推广到总体中的其他人。例如,假设第 1 组在某项测试中的平均分数高于第 2 组。您可以得出结论,在您测量的孩子中,第 1 组在测试中的得分高于第 2 组。在这种情况下,您只是比较group1 中的 5 个孩子和第 2 组中的 5 个孩子,并且不使用推理(即 p-vaue 和置信区间没有意义)。只需计算平均数、中位数、总体标准差等描述性统计数据来描述您的数据。

请记住,您仍然可以在不使用推理的情况下运行各种测试或计算效果大小。例如,您可以计算测试中第 1 组和第 2 组之间的 Cohen d。您可以使用 ANCOVA 并在控制年龄和性别的影响的同时找到组间测试分数的平均差异。我认为有些人没有意识到像方差分析或多元回归这样的东西可以用于描述性统计。

为了扩展我的评论,这是一种方法。更习惯于您工作的领域的人(这里有很多人)可能对解决相同的问题有更好的建议:

1)假设混杂变量有两种。

i)第一种(主要的)是共同创始人,对于给定的主题总是相同的。例如,“学校效应”和“教师效应”以及社会经济变量可以合理地假设在每个科目之前和之后是相同的

ii)第二种(对于您的问题可能不存在)可以在受试者中发生变化(这些将是与时间相关的事情,例如之前已经测试过的“学习效果”,而不是干预本身)

2)假设没有混杂因素与您感兴趣的任何影响相互作用

反映这一点的模型可以写成如下:

代表主题,让代表时间(0/1)。为主题在时间的响应。治疗组变量,对照组itYititTreatment10

αi包含上述所有个人级别的联合创始人。

γ包含任何时间联合创始人,包括第一轮测试的效果。

β包含治疗效果 - 差异

Yit=αi+γt+β Treatmentt+εit

通常对于这样的模型,我很想使用具有随机截距的混合效应模型,但在这种情况下,您没有随机化。尽管如此,由于之前/之后的配对,假设混杂因素与治疗没有相互作用,您可以梳理出治疗效果。

例如,如果你取,你会得到:Di=Yi1Yi0

Yi1=αi+γ+β Treatment+εi1

Yi0=αi+0+0+εi0

Di=γ+β Treatment+ηi

其中ηi=εi1εi0

然后 - 假设样本量足够大,的总体平均值相等的直接两个样本测试应该可以说是获得治疗效果。D

在这种情况下,我对这 10 个孩子的个人故事比对任何统计数据更感兴趣。

历史:小样本统计。引用马克吐温的话,“历史不会经常重演,但它是押韵的。”

罗杰·科恩克(Roger Koenker),公认的统计思想词典