当机器学习领域的人们谈论有偏见的数据集时,这意味着什么?我认为只有估算器才会有偏差。
在记录我所做的工作时,有人问我:
“所有数据集都以某种方式存在偏差。您的数据集如何存在偏差?”
我不知道它们是什么意思。我的数据集也是人口数据,所以我很难将其解释为样本选择问题......
分析的目的主要是描述性的。我将构建三个索引并将它们组合起来。这三个指数是1)房价指数,2)交通时间指数和3)工资指数。
我知道,即使有人口数据,房价也存在样本选择问题——因为并非所有房屋每年都会交易,而且交易的子样本很可能不是住房总存量的随机样本。
我并没有在我拥有数据的时间段(即 30 年)之外进行概括。