机器算法验证样本

2022-04-02 06:19:11

以著名的波士顿住房数据集为例。在最初的论文中，回归模型用于模拟人们愿意为改善空气质量而支付的金额。

但是从未指定行为被建模的“人”。据推测，它不仅限于“大波士顿的居民”。令人难以置信的是，它会是“地球上任何地方的人类”。也不是“所有美国居民”。

那么作者邀请我们得出什么推论来得出他们打算为他们的理论制定的范围呢？也许是“美国大都会区的所有居民”。但是 - 其他第一世界都会区呢？波士顿论文的前两节严格避免任何可能暗示他们的“样本”适用于特定“人群”的参考。

还有时间维度——数据来自70年代，而理论没有时间限制。

另外——回到第一原则——当没有考虑来自芝加哥地区的数据时，如何将波士顿数据视为包括芝加哥都会区在内的人口样本？

此外，波士顿回归中的许多协变量根本不是样本，而是总数——例如，黑人的比例是从人口普查数据中提供的。

我的问题：我们如何才能将波士顿数据视为支持论文中地理上无限的命题？是否有一种数学方法可以显示波士顿数据分析与其他城市的等价性或近似性？或者它只是被假设为一个常识问题 - 这样论文的作者会惊讶地认为任何人都可能对此事有任何疑问？

1个回答

前段时间我问过自己同样的问题。特别是，我正在阅读其他研究人员的论文。他们对学生进行了一项研究，在他们的论文中他们说人口是 0-99 岁的人。

所以...

考虑到这个问题，您可以推广到的人群在很大程度上取决于实验。您可以自己找到非常特殊和非常一般问题的示例。

我能想到的支持泛化的两种方式如下：

争论意味着你想出一个模型（A），关于哪些因素对你的假设影响最大。然后，您将总体扩展到那些在这些因素方面与您的样本差异不大（B ）的主题。

例如，如果您认为年龄是您的问题中的一个重要因素（而其他因素并不那么重要），并且您对 20-29 岁的学生进行了实验，那么您可以很好地推广到一般人群20-29 岁。但推广到所有年龄组并没有得到很好的支持。

您会看到，该方法包含两个主要假设的组件A和B，它们本身通常不受经验或理论上的支持。此外（没有阅读太多，更不用说几乎没有）我自己的统计内容的出版物，我认为作者并没有明确地争论这种方式：明确地提供A和B。

但

事情就是这样。显然没有其他好办法。所以最后，我认为你能做的最好的就是：

描述性地说明您的样本是如何获得的。这至少包括对您的样本（例如 21-37 岁的学生）的描述以及可能重要的所有特性（例如所有都在学习化学）和对您的纳入/排除指南的描述（例如 15-99 岁的人）。
（可选）说明您的数据可能泛化到哪些人群（例如 15-99 岁的人群）。争论你为什么认为是这种情况。

我自己从来没有做过实验，也没有学会怎么做，也没有读过很多实证著作。

其它你可能感兴趣的问题