数据挖掘 - 进行监督学习，其中输出应该是加到 1 的概率 - 吾爱随笔录

数据挖掘机器学习分类监督学习

2022-03-12 12:25:33

我正在尝试对数据集进行一些监督学习以显示哪个输入是最可能的真实输入

如您所见，每个INPUT_ID人只有一个 True IS_TRUE_INPUT。目标是获得每个输入是每个输入的真实输入的概率INPUT_ID。

我被卡住了，因为这似乎不是一个正常的分类问题，每个输入的概率INPUT_ID应该加起来为 1。

感谢您的帮助！

1个回答

如果您有少量的 INPU_ID

从多类分类的简单方法开始。INPUT_ID将和的组合IS_TRUE_INPUT作为标签。剩下的就是你的特征。将分类特征转换为数值（例如 one-hot）。让模型决定。

我不知道为什么你需要预测的概率分布 per INPUT_ID。你输入一个新的输入，模型给你一个成为类成员的概率。如果我不理解您的用例，请发表评论，我会更新。

第 77 和 78 行的示例：

line 77 --> input = feature_set, output = {is_i171:1, is_i120:0, ...}
line 78 --> input = feature_set, output = {is_i171:0, is_i120:0, ...}

根据您使用的模型，概率输出将是、等的概率分布is_i171，is_i120例如 NN 中的 softmax 决策函数。

将所有数据嵌入到 n 维向量空间中。计算TRUE每个实例的平均向量INPUT_ID。面对一个新的查询（输入），计算每个INPUT_ID平均向量的距离并将距离除以距离之和。然后你得到一个新输入的概率分布，对于你的任何输入类都是正确的。

其它你可能感兴趣的问题