数据泄露和内生性有什么区别?

数据挖掘 数据泄露
2022-02-17 09:29:51

我的印象是前者用于 ML,而后者用于计量经济学。他们都认为来自目标的信息在解释变量中“泄漏”。

这两个概念有区别吗?

2个回答

内生性是指由于缺少变量或测量误差而与误差项相关的解释变量。数据泄漏是在模型中引入虚假的可解释性,因为引入了新数据而不是合成数据(比如我们使用了 SMOTE)。在前一种情况下,我们将看到模型对于一些可解释性渗入误差项的特征系数偏差太大。在后一种情况下,我们将看到该模型将具有高方差并且缺乏泛化性,这使得它对生产/测试数据无用。引入数据泄漏的典型示例是在进行验证拆分之前通过 SMOTING(是的,使用单词作为动词)。

不,数据泄露是同时性的一个例子,是内生性的一种形式。