虚构数据的最佳术语?

机器算法验证 术语 合成数据
2022-01-21 18:10:11

我正在写一个例子,并编造了一些数据。我想让读者明白这不是真实的数据,但我也不想给人恶意的印象,因为它只是一个例子。

这个特定数据没有(伪)随机分量,所以在我看来“模拟”是不合适的。如果我称其为虚构或捏造,这是否给人以欺诈数据的印象?“虚构”是一个适合科学背景的词吗?

非模拟虚构数据的统计文献中的术语是什么?

4个回答

我可能会称其为“合成”或“人造”数据,尽管我也可能称其为“模拟”(模拟非常简单)。

如果您想将您的数据称为虚构的,那么您将是一个很好的伙伴,因为这是 Francis Anscombe 用来描述他现在著名的四重奏的术语。

来自 Anscombe,FJ(1973 年)。统计分析中的图表”,上午。统计。27 (1):

其中一些点由四个虚构的数据集说明,每个数据集由 11 个 (x, y) 对组成,如表中所示。

但我认为你的谨慎是正确的,因为我的 OED (v4) 似乎表明这种对虚构的使用已经过时

虚构

(fɪkˈtɪʃəs)

[F。L. fictīci-us (f. fingĕre to fashion, feign) + -ous: 见 -itious.]

1.1 †a.1.a 人工而非自然(obs.)。b.1.b 假冒、“仿制”、假冒;不是真的。

在 IT 中,我们通常将其称为模型数据,可以通过模型(应用程序)呈现。

模型数据也可以通过功能齐全的应用程序呈现,例如以受控方式测试应用程序的功能。

我已经看到对“合成数据”一词的重复建议。但是,该术语具有广泛使用的含义,并且与您要表达的含义截然不同:https ://en.wikipedia.org/wiki/Synthetic_data

我不确定是否有一个普遍接受的科学术语,但是“示例数据”这个术语似乎很难被误解?