机器算法验证 - 测试以比较用户界面 - 吾爱随笔录

测试以比较用户界面

机器算法验证方差分析 t检验重复测量

2022-03-21 22:49:10

对于我的论文，我需要做一个实验性的用户研究来比较两个可以执行相同任务的用户界面。它们在如何支持您完成任务方面有所不同。我对统计数据不是很熟悉，所以如果我已经做出的以下任何假设不正确，请纠正我。

我很确定我需要使用平衡的学科内设计。阅读几篇关于用户界面的论文似乎表明建议进行长期的实地研究。由于时间限制，以及界面的实验性设计，这不是一个选择。

该计划是进行客观和主观（问卷）测量。例如，客观测量可以是完成给定任务所花费的时间。

起初我认为我需要配对 t-test。但是，我很可能会进行多次测量，而不仅仅是一次。一些阅读提到了针对这种情况的重复测量方差分析，但我对此完全不确定。

我应该使用哪种测试？我应该使用哪种功率分析方法？我想确定我需要（或可以做）多少科目以及我的测试的力量是什么。

3个回答

主要是研究设计，也许是更少的统计数据。

假设

您的数据可能会导致尝试回答以下问题：

接口A比接口B更容易理解吗
使用以前的界面的经验是否改善了第二次运行
如果您先尝试系统A，然后再尝试系统B，这有关系吗？

据我了解，您想回答第一个问题，但担心 2 和 3 会模糊数据。现在我认为没有什么好的方法可以解释如何解释 3 不是 1 的一部分，我建议你避免研究的交叉设计，因为你缺乏这部分的知识。在现实世界的设置中，用户也将只有一个界面可以关联。

结果

你的结果变量是

完成一项任务或一组任务的时间
用户对系统的体验

定义哪个结果变量是您的主要变量，并且您应该将其用于所有功率计算，这始终是一种很好的做法。如果您有几个任务要比较，我建议您创建一些复合变量（最好是直观的）。

在选择主观体验时，您应该寻找经过验证的问卷。使用已经存在的问卷总是好的，在医学中，我们经常使用我们之前验证过并且大多数人都熟悉的EQ-5D等分数。可能有类似的可能可以用于您的情况。分数有一个很好的特点，那就是你可以计算一个平均值，但这也是一个缺点，因为如果你不能与分数联系起来，10 分的提高就没有任何意义。在 EQ-5D 中，我们经常将手术结果与普通人群进行比较，看看我们的干预措施有多接近。

设计

我会做一个没有交叉的随机试验。随机化的重要一点是……它必须是随机的！是的，有很多人偷看信封破坏了他们自己的实验，所以请确保你有一个好的随机化程序：

使用计算机随机化或不透明信封
使用块状随机化，以便您的目标是相同的组大小（每个块具有 50% 的 A 组和 50% 的 B 组）
使用随机块大小，如果你有 2、4 和 6 的大小，你将很难知道下一个接口是什么
仅对 1 个或 2 个变量使用分层，例如性别、计算机经验
较晚随机化，最好是在受试者坐在电脑旁时

如果有关系统的消息四处流传，您可能需要检查一下系统的先前知识。如果你招收你的同学，你可能会因为意外破坏实验而告诉他们你系统的重要部分。出于显而易见的原因，你不能让你的受试者失明，但你应该尽你所能，让受试者不知道他们将要经历什么。

混杂因素

如果您的随机化有效，则无需担心混杂因素。即使理论说你不需要为他们的主题记下可能的混杂因素，以防随机化无法解决问题。如果您的小组非常小，少于 20-30 个科目，您可能也想做同样的事情。

在您的情况下，典型的混杂因素可能是：

以前的计算机经验
年龄
性别
受教育程度

功率计算

计算能力（估计需要的科目数量）很容易，除非你想详细了解，我用 Russ Lenth 的能力计算做了我的第一次计算，你可以在这里找到。你也可以使用 R 的包“pwr”，你可以在这里找到一些帮助。

功率计算是一个非常粗略的估计，您应该始终为辍学增加 10-20 %。在医学中，我们使用 0.05 的显着性水平，并且按照传统的目标是 80% (0.8) 的功效，但选择界面可能不如为癌症患者选择药物 A 重要，因此可以只考虑 0.1 的显着性。

在尝试计算功率时，您必须进行很多猜测，这是您应该将数字视为指导而非事实的原因之一。我还认为，如果您每组需要超过 60-80 名受试者，那么您寻找的差异可能非常小，如果您正在寻找更好的心脏药物，这可能是可以的，但如果您的设计界面不那么有趣。

统计数据

如果你有一个精心设计的研究，这部分是你最不担心的。我想说，大多数缺陷都存在于研究设计中，并且统计测量通常在小数点上有所不同，而结论通常保持不变。

随机试验的测试：

连续结果的 T 检验
时间依赖性生存结果的Cox 回归
Kaplan-Meier用于可视化生存
分类结果的卡方检验

对于测试混杂因素：

回归分析是一种非常强大的方法，它几乎可以让你做任何事情。

为了学习统计背后的基础知识，我使用了我也向所有学生推荐的可汗学院。

我对此的看法，诚然，我熟悉的技术有偏见。

研究设计：就您而言，我认为您可以采用简单的随机设计。我不愿让每个主题都尝试两种 GUI 设置，原因有两个：它使分析复杂化，并且可能对“问题集”更加熟悉，或者任何会影响您对第二个 GUI 的结果的东西。

Power：可悲的是，这将完全取决于你的问题。如果您真的倾向于事先计算功率，则需要针对您将要进行的每种类型的分析进行计算。每个测试都有自己的怪癖，尽管通过模拟计算功率可能是最简单的方法，可以应用于您想出的任何测试。尽管请注意，功率计算中包含大量假设。如有疑问，请添加更多主题。

分析：我脑子里冒出两个想法：

如果您对任何协变量不感兴趣——事实上，如果你做得对，随机化应该可以消除研究组之间的差异——那么对于连续的、正态分布的测量，你应该能够进行 t 检验。对于更分类的度量，例如按比例评分的事物，您正在查看列联表分析。
UI 设计似乎是生存分析的完美应用。除非其中一个 GUI非常糟糕，否则您的用户应该能够在任一系统上完成您的测试。所以问题是他们需要多长时间才能完成你的测试？使用两组和一个随机设计，将完成时间与 Kaplan-Meyer 曲线之类的东西进行比较可以为您提供一个很酷的画面，一个很好的估计一个 UI 比另一个 UI 快多少，并且非常简单。

正如@whuber 所说，很高兴看到人们提前思考这个问题。

您必须使用哪种测试取决于您打算测量的变量。李克特式问卷需要与时间测量不同的测试。所以首先你需要知道实验界面更好的标准是什么。然后，您必须找出如何衡量这些以及哪些衡量标准构成了更好的界面。只有这样，您才能确定要使用的测试。

至于功率：您也可以使用自适应设计。这是一种设计，您没有预设样本量，而是定义用于动态增加样本量的参数。例如，您从 10 名参与者开始，看看您是否获得了显着的结果。如果你的 p 低于 alpha，你就停下来：一切都很好。如果您的 p 高于 alpha 但低于某个阈值，您将继续添加参与者（取决于您的随机化方案 - 例如 4 个批次），直到您的 p 离开上限阈值和下限阈值（alpha）之间的走廊。如果你的时间用完或你的资金用完，你就会停下来。;-) 但是在这里不要相信我的话。这是我听到的。我自己从来没有用过。

用户界面研究的问题在于，通常很难用小样本量获得显着的结果。您可以用两种方式解释这一点：a）我的研究很糟糕（数据很少）或 b）界面之间的差异不足以显示出持续的改进。

您还可以考虑哪个对您更重要：低 I 型错误或低 II 型错误。如果使用您的实验界面存在一些风险或成本，并且您确实希望确保在那里产生效果以证明成本合理，那么低 I 类错误将是很好的。成本可能是从更高的认知负担到主要工会因为讨厌新界面而罢工的一切。如果不使用实验界面有一些成本并且您想证明这一点，那么低类型 II 错误（即高功率）将是很好的。（在教科书中，这通常在“消费者风险”和“生产者风险”下进行解释。）

其它你可能感兴趣的问题

上一篇使用蒙特卡洛的控制变量和对立方法下一篇配对 t 检验的最小样本量是多少，如果数据是非正态的，什么是非参数等价物？