从文本特征预测连续变量

机器算法验证 贝叶斯 多重回归 文本挖掘 朴素贝叶斯
2022-04-12 12:30:19

我想从文本特征中预测一个连续变量。假设我有一些学生论文,我想预测他们的质量,由人类评分员使用文本特征(主要是他们使用的单词)来衡量。

线性回归是一个明显的候选者,但如果我的特征比评分论文多得多,这可能不会很好。

如果我想将它们分类为好/坏,我可能会尝试使用朴素贝叶斯分类器。我不知道,但也许我可以从中汲取灵感。

据我了解,朴素贝叶斯从假设特征独立性中汲取力量。是否存在诸如朴素多元线性回归之类的东西,您假设特征独立?

我认为这与对每个回归系数使用单变量线性回归相同。不过,我希望这会很快遇到问题。

这两个模型之间有什么中间的吗?对主要期望条件独立的特征协方差进行先验分布?我应该考虑的其他型号?

贝叶斯模型首选。

3个回答

stackoverflow上也有人问过类似的问题:

这里的一个答案是使用 k-最近邻回归来预测来自文本文档的连续值,请参阅https://stackoverflow.com/a/15089788/179014

我推荐使用树的梯度提升,如统计学习元素的第 10 章“提升和加性树”中所述这些方法适用于词袋数据,可以捕捉词特征的交互,可用于回归和分类。

有一种贝叶斯线性回归可以处理许多特征的情况。它被称为潜在因子回归,您可以在 "Large p, Small n" Paradigm 中的 Bayesian Factor Regression Models论文中找到一个很好的描述。如果潜在因素的数量很大,则相当于线性回归。否则,它鼓励回归遵循特征的主要成分。