数据挖掘 - 用一个联合模型预测三个相关分数 - 吾爱随笔录

用一个联合模型预测三个相关分数

数据挖掘机器学习预测建模

2022-03-14 16:12:54

我有多个特征，我想预测三个结果分数。

特征：

长度以厘米为单位最小为 40 厘米最大为 209 厘米
公斤：39 至 302
年龄：19 至 111
性别：男、女、跨性别
诊断：不同疾病的数量
药物：不同药物的数量
尿液水平：0 至 5

分数：

快乐 1 到 7 的量表
抑郁量表 1 到 7
健康等级 1 到 7

我知道我可以使用监督学习并创建模型来单独预测分数。我已经预训练了三种不同的模型。

你有什么反馈吗？

幸福、抑郁和健康是相关的。有没有算法可以解决这个问题？基于历史数据（特征和预测）和训练有素的模型，我想根据新患者的特征和历史分数来预测他们的分数。

2个回答

你有标签集吗？只要您有足够的标记数据来训练它，任何算法都可以以监督的方式进行。

基于树的模型（例如随机森林分类器）可以很好地完成这项任务，尤其是因为您拥有分类数据。您需要做的就是将数据编码为数字（例如 0：男性，1：女性，2：变性人）并将其输入您的模型（应用随机拆分和交叉验证等）。

如果你不这样做，那么在不收集新数据的情况下你能做的最好的事情就是在你的数据集中找到相关患者的集群。编码变量的规则相同，但您可能需要注意如何缩放变量，因为聚类算法对特征的相对缩放很敏感。发生这种情况是因为大多数聚类算法使用距离度量对数据进行聚类，这在处理类别时失去了意义。有关聚类分类数据的更多信息，请参阅此内容：

您可以尝试级联模型，例如，您首先拟合三个单独的模型

S1=F(x1,...,x7)

S2=F(x1,...,x7)

S3=F(x1,...,x7)

接下来，您使用这些单独模型的结果来拟合二级模型，例如

M1=F(x1,...,x7,S1,S2)

或者

M2=F(x1,...,x7,S1,S3) ...

拟合模型的结构和顺序取决于您的数据。

您可以测试某些组合的性能，也可以仅根据专家判断设置结构。

当然，不能保证这些堆叠模型的性能会比您的单个模型的性能更好。

其它你可能感兴趣的问题

上一篇您将如何改进和优化这样的手动编码？下一篇分类：如何管理一个数据行依赖于另一个数据行的数据集