在不知道评估什么样的数据的情况下,很难在这里给出好的建议。真的,这就是你所能得到的。对于这样的问题,没有最好的衡量效果大小的方法……也许永远不会。
问题中提到的效应量都是标准化的效应量。但完全有可能原始度量的均值或中位数很好。例如,如果您要测量完成制造过程所需的时间,那么时间差应该是一个完全合理的效果大小。过程、未来测量、跨系统测量和跨工厂测量的任何变化都将及时进行。也许您想要平均值,或者您想要中位数,甚至是众数,但您需要做的第一件事是查看实际测量尺度,看看那里的效应大小是否可以合理解释并与测量密切相关。
为了帮助思考这一点,应该标准化的效果是更间接和以多种方式衡量的东西。例如,心理量表会随着时间的推移以多种方式发生变化,并试图获得一个未被直接评估的潜在变量。在这些情况下,您需要标准化的效果大小。
对于标准化的效果大小,关键问题不仅在于使用哪个,还在于它们的含义。正如您在问题中暗示的那样,您也不知道它们的含义,这是关键。如果您不知道标准化效果是什么,那么您就无法正确报告、正确解释或正确使用它。此外,如果您想以多种方式讨论数据,那么绝对没有什么能阻止您报告一个以上的效应量。您可以根据线性关系(例如产品矩相关性)或 Spearman 的等级关系来讨论您的数据r
以及它们之间的差异或仅提供表中的所有信息。这一点都没有错。但最重要的是,您将不得不决定您希望您的结果意味着什么。这是无法从给出的信息中回答的问题,并且可能需要比此类论坛中的问题合理得多的信息和特定领域的知识。
并且始终以元分析的方式思考您如何报告效果。未来人们是否能够获取我报告的结果并将其与其他人整合?也许在您的领域中有这些事情的标准。也许您选择非参数检验主要是因为您不相信其他人对基础分布所做的结论,并且您希望在主要使用参数检验的领域中的假设更加保守。在这种情况下,额外提供通常与参数测试一起使用的效果大小并没有错。在考虑如何将您的发现放入更大的类似研究文献中时,需要考虑这些和许多其他问题。通常,良好的描述性统计数据可以解决这些问题。
所以这是主要的建议。我有一些补充意见。如果您希望您的效果大小与您所做的测试密切相关,那么Z
基于推荐的建议显然是最好的。您的标准化效应大小与测试的含义相同。但是,只要您不这样做,那么使用大多数其他东西就没有错,即使是d
与参数测试相关的科恩之类的东西。计算均值、标准差或d
分数。事实上,有比推荐的相关系数更弱的假设。并始终报告良好的描述性措施。同样,描述性措施没有您会违反的假设,但请记住它们的实质性含义。您报告描述性统计数据,这些数据说明了您想说的数据,而均值和中位数则说明了不同的内容。
如果您想讨论重复测量与独立设计效果大小,那么这确实是一个全新的问题。