我想从文本特征中预测一个连续变量。假设我有一些学生论文,我想预测他们的质量,由人类评分员使用文本特征(主要是他们使用的单词)来衡量。
线性回归是一个明显的候选者,但如果我的特征比评分论文多得多,这可能不会很好。
如果我想将它们分类为好/坏,我可能会尝试使用朴素贝叶斯分类器。我不知道,但也许我可以从中汲取灵感。
据我了解,朴素贝叶斯从假设特征独立性中汲取力量。是否存在诸如朴素多元线性回归之类的东西,您假设特征独立?
我认为这与对每个回归系数使用单变量线性回归相同。不过,我希望这会很快遇到问题。
这两个模型之间有什么中间的吗?对主要期望条件独立的特征协方差进行先验分布?我应该考虑的其他型号?
贝叶斯模型首选。