目标变量中具有不确定性/范围的回归

机器算法验证 回归 机器学习 数理统计
2022-04-14 06:49:01

当您的目标变量(在回归问题中)存在不确定性时,我有一个关于建模的方法/机器学习技术的问题。

例如,假设您有以下数据集(人为示例):您正在对房屋销售价格进行建模,并且您已经记录了每所房屋的历史特征数据和房屋价格销售数据。您的要素数据集是:

特征空间:

[SquareFootNumberOfBedroomsNumberOfBathrooms100032150021.........]

使用每所房屋(特征行)的相应房屋销售价格,但是您只能获得目标变量的范围(包含不确定性) - 也许这个特定国家/地区的法律规定卖方只能披露一个范围和确切的无法知道值:

目标变量:

[SalePrice(TargetVariable)1000150020002200...]

我的问题是,有哪些技术可以对目标变量有下限和上限但值本身未知的情况进行建模?请注意,目标上的窗口宽度可能会有所不同

1个回答

这可以建模为区间删失数据。大多数关于区间删失的参考资料都在生存时间上下文中,但相同的技术适用于任何被删失的测量。中的survivalR具有为此所需的方法。我建议加速失效模型。

例如

N <- 100
set.seed(123455)

X <- data.frame(
  bathrooms = sample(1:3, size = N, replace = TRUE),
  bedrooms = sample(1:4, size = N, replace = TRUE)
)

Y <- rlnorm(N, log(10000 + X$bathrooms*10000 + X$bedrooms*30000), 2)

hist(log10(Y))

Ycensleft <- floor(Y/10000) * 10000
Ycensright <- ceiling(Y/10000) * 10000

require(survival)

Ysurv <- Surv(time = Ycensleft, time2 = Ycensright, event = rep(3, N), type = 'interval')

sv1 <- survreg(Ysurv ~ bathrooms + bedrooms, data = X, dist = "gaussian")
summary(sv1)
```