如何预测贝叶斯线性回归中的新/未知数据?

数据挖掘 回归
2022-03-06 11:32:47

这是我在这个论坛上的第一个问题。我刚开始使用贝叶斯统计。虽然我确实了解贝叶斯方法背后的动机,但我对这些预测的含义还是有点不清楚。考虑一个给定面积(以平方英尺为单位)预测房屋价格的标准回归问题。假设已找到模型的最佳参数(斜率和截距)。任何新房子的价格 (x_new) 只是这个数字 - {intercept + slope * x_new}。

在贝叶斯线性回归中,我们使用所谓的后验预测分布(简称 PPD)。但无论如何,PPD 是什么?

1)它是一个概率密度函数(pdf),带有一些参数,如均值和(协)方差?如果是这样,我如何从这个密度函数中获得房价的单个值?我应该只取这个分布的平均值还是有可用的复杂技术?

2) 它是一个实数,由等式给出 - 截距 + 斜率 * x_new?如果是这样,一个。截距和斜率是从斜率和截距的后验分布中采样的吗?湾。还是斜率和截距的后验平均值用于计算新房的价格?

1个回答

让我帮你开始 -

  1. 你不会像在线性回归中那样得到一个单一的值,而是参数的后验分布。是的,这里的输出是从以均值和方差为特征的正态(高斯)分布生成的,恐怕没什么特别的。但根据均值和方差,您可以确定哪个价格更有可能是。

  2. 是的,它不是像价格这样的实数值,而是概率,输出是可能性乘以数据的先验概率。

这是一个非常简单的解释,我无法用更好的语言来表达——

https://towardsdatascience.com/introduction-to-bayesian-linear-regression-e66e60791ea7

这是斯坦福本章的更多数学背景-

http://cs229.stanford.edu/section/cs229-gaussian_processes.pdf

而且你并不孤单,因为这些作者同意——

“高斯过程回归模型,虽然在概念上理解起来可能有些棘手,但仍然导致简单直接的线性代数实现”