以著名的波士顿住房数据集为例。在最初的论文中,回归模型用于模拟人们愿意为改善空气质量而支付的金额。
但是从未指定行为被建模的“人”。据推测,它不仅限于“大波士顿的居民”。令人难以置信的是,它会是“地球上任何地方的人类”。也不是“所有美国居民”。
那么作者邀请我们得出什么推论来得出他们打算为他们的理论制定的范围呢?也许是“美国大都会区的所有居民”。但是 - 其他第一世界都会区呢?波士顿论文的前两节严格避免任何可能暗示他们的“样本”适用于特定“人群”的参考。
还有时间维度——数据来自70年代,而理论没有时间限制。
另外——回到第一原则——当没有考虑来自芝加哥地区的数据时,如何将波士顿数据视为包括芝加哥都会区在内的人口样本?
此外,波士顿回归中的许多协变量根本不是样本,而是总数——例如,黑人的比例是从人口普查数据中提供的。
我的问题:我们如何才能将波士顿数据视为支持论文中地理上无限的命题?是否有一种数学方法可以显示波士顿数据分析与其他城市的等价性或近似性?或者它只是被假设为一个常识问题 - 这样论文的作者会惊讶地认为任何人都可能对此事有任何疑问?