机器算法验证 - 目标变量中具有不确定性/范围的回归 - 吾爱随笔录

当您的目标变量（在回归问题中）存在不确定性时，我有一个关于建模的方法/机器学习技术的问题。

例如，假设您有以下数据集（人为示例）：您正在对房屋销售价格进行建模，并且您已经记录了每所房屋的历史特征数据和房屋价格销售数据。您的要素数据集是：

特征空间：

[\begin{matrix} S q u a r e F o o t & N u m b e r O f B e d r o o m s & N u m b e r O f B a t h r o o m s \\ 1000 & 3 & 2 \\ 1500 & 2 & 1 \\ . . . & . . . & . . . \end{matrix}]

$\begin{bmatrix} Square Foot & Number OfBedrooms & Number Of Bathrooms \\ 1000 & 3 & 2 \\ 1500 & 2 & 1 \\ ... & ... & ... \\ \end{bmatrix}$

使用每所房屋（特征行）的相应房屋销售价格，但是您只能获得目标变量的范围（包含不确定性） - 也许这个特定国家/地区的法律规定卖方只能披露一个范围和确切的无法知道值：

目标变量：

[\begin{matrix} S a l e P r i c e (T a r g e t V a r i a b l e) \\ 1000 - 1500 \\ 2000 - 2200 \\ . . . \end{matrix}]

$\begin{bmatrix} Sale Price (Target Variable) \\ 1000 - 1500 \\ 2000-2200 \\ ... \\ \end{bmatrix}$

我的问题是，有哪些技术可以对目标变量有下限和上限但值本身未知的情况进行建模？请注意，目标上的窗口宽度可能会有所不同

N <- 100 set.seed(123455) X <- data.frame( bathrooms = sample(1:3, size = N, replace = TRUE), bedrooms = sample(1:4, size = N, replace = TRUE) ) Y <- rlnorm(N, log(10000 + X$bathrooms*10000 + X$bedrooms*30000), 2) hist(log10(Y)) Ycensleft <- floor(Y/10000) * 10000 Ycensright <- ceiling(Y/10000) * 10000 require(survival) Ysurv <- Surv(time = Ycensleft, time2 = Ycensright, event = rep(3, N), type = 'interval') sv1 <- survreg(Ysurv ~ bathrooms + bedrooms, data = X, dist = "gaussian") summary(sv1) ```