我正在尝试对数据集进行一些监督学习以显示哪个输入是最可能的真实输入
如您所见,每个INPUT_ID
人只有一个 True IS_TRUE_INPUT
。目标是获得每个输入是每个输入的真实输入的概率INPUT_ID
。
我被卡住了,因为这似乎不是一个正常的分类问题,每个输入的概率INPUT_ID
应该加起来为 1。
感谢您的帮助!
我正在尝试对数据集进行一些监督学习以显示哪个输入是最可能的真实输入
如您所见,每个INPUT_ID
人只有一个 True IS_TRUE_INPUT
。目标是获得每个输入是每个输入的真实输入的概率INPUT_ID
。
我被卡住了,因为这似乎不是一个正常的分类问题,每个输入的概率INPUT_ID
应该加起来为 1。
感谢您的帮助!
从多类分类的简单方法开始。INPUT_ID
将和的组合IS_TRUE_INPUT
作为标签。剩下的就是你的特征。将分类特征转换为数值(例如 one-hot)。让模型决定。
我不知道为什么你需要预测的概率分布 per INPUT_ID
。你输入一个新的输入,模型给你一个成为类成员的概率。如果我不理解您的用例,请发表评论,我会更新。
第 77 和 78 行的示例:
line 77 --> input = feature_set, output = {is_i171:1, is_i120:0, ...}
line 78 --> input = feature_set, output = {is_i171:0, is_i120:0, ...}
根据您使用的模型,概率输出将是 、 等的概率分布is_i171
,is_i120
例如 NN 中的 softmax 决策函数。
将所有数据嵌入到 n 维向量空间中。计算TRUE
每个实例的平均向量INPUT_ID
。面对一个新的查询(输入),计算每个INPUT_ID
平均向量的距离并将距离除以距离之和。然后你得到一个新输入的概率分布,对于你的任何输入类都是正确的。