如何模拟人类智能分布的反应?

人工智能 机器学习 类人
2021-11-18 08:39:33

我最终希望构建一种算法来处理人类给出的问题的答案。但首先我必须设置一个实验来确定反应的多样性。

具体来说,人类将被问到一个只有一个正确答案的多项选择题。我想了解我会从人类智能的钟形曲线分布中得到哪些类型/范围的响应。

有什么方法可以让我提示 1000 个“人类”,重复 100 次(同一个问题),然后编译答案?我担心的是,我必须为每个愚蠢的、平均的、聪明的“人类”构建一些算法或流程,然后我会在他们有多聪明或限制他们的反应方式上引入偏见。我猜我必须给他们一个数据分类才能工作。

澄清一下,并不是单个用户正确回答问题的次数使他们变得聪明,在模拟开始之前,他们必须被编程为愚蠢、聪明等。因此,愚蠢的用户可能会做对一些事情,而聪明的用户可能会做错一些事情。

我不确定蒙特卡洛方法在这里是否有用,但某种类型的模拟我可以指定分布(正态)然后绑定响应会有所帮助。

我可以访问 Excel、Minitab 和 Python。任何想法如何设置这样的实验?我真的对任何衡量这一点的技术持开放态度。

1个回答

目前无法可靠地模拟您要收集的数据。当前没有用于人类执行阅读理解的逼真模拟器。

在问题上选择的实际错误率和特定错误答案将在很大程度上取决于特定的人以及问题的性质。当您希望获得真实的结果时,唯一适用于地面实况数据的方法是向 1000 多个真实的人展示您的示例问题。此外,如果您想将您的人类分类为“聪明”、“愚蠢”等,您将需要对他们进行额外的测试,例如智商测试,以创建这些类别。

根据具体情况,例如您要评估的问题的性质,您可能能够从现实世界的考试中获得一些可能有所帮助的匿名数据,而不是尝试自己生成这些数据。在这种情况下,您可以为人类回答多项选择题建立一个近似模型——也许通过训练一个基于 LSTM 的自然语言模型。为了使您的问题获得最佳准确性,您希望训练集包含类似类型的问题。仍然需要注意的是,NN 并不真正进行逻辑或推理,它们进行统计拟合,因此很容易得到逻辑错误的答案或选择无意义的答案。最好的通用NLP 模型在语义方面仍然很失败。

如果您有一组特定的问题要评估——并且不愿意忽略问题的内容——那么如果没有大量的训练数据和大量的努力,目前没有机器可以匹配人类行为在此类任务上的分布。

如果您不关心问题的内容,或评估它们的难度,或者实际上对特定问题的任何反馈,那么您可以使用来自任何多项选择问卷的数据集来获取正确答案准确性的统计数据。使用这种方法,您的模拟可能只是对“正确”、“最可能不正确”等答案的简单分布,您可以手动或随机(但始终如一地)选择“最可能不正确”。这将为您提供类似于已知真实世界数据的响应分布。它可以用来对评分系统进行单元测试,或者演示一些统计数据或可视化软件。但在这一点上,问答文本也可能是胡言乱语。