从不完整的数据进行推断

数据挖掘 机器学习 数据集 机器学习模型
2022-02-26 04:08:33

我有包含完整信息的数据。每条记录都分配了一个类。在生产环境中,我无法从用户那里获得如此多的信息,因此我想创建一个模型,该模型能够从不完整的数据中进行推断,并通过从用户那里获得更多信息来做出越来越可靠的预测。

例如:

说,

  1. 训练数据 - 200 个二元特征,在行中平均有 11 个标记为 1,另外 189 个标记为 0。
  2. 生产 - 我们给我们的用户列表来标记其中哪些是最常见的(假设用户选择了其中 3 个),然后我想做出一些推论并提出好的问题以获得更准确的预测。

我的第二个问题是我的数据集假设用户只能属于一个类,而实际上生产中的用户可以是多标签的。比如说,在我的数据集中存在这样的情况: -class 1 有 5 个随机注释为 true 的特征(总是相同),其余总是 false -class 2 有 5 个不同的特征随机注释为 true(总是相同),总是休息错误的

注意,我有一个每个类的可能特征列表,所以我可以很容易地计算类的条件概率取决于特征,所以我尝试使用朴素贝叶斯,但我的特征不是独立的。

在生产中可能会出现这样的情况:用户将属于 1 类和 2 类,并且将具有 1 类和 2 类的一些功能。我希望我的算法能够确定它属于 1 类和 2 类。

我应该使用什么算法?我正在考虑决策树,但在这种情况下,我无法让用户选择对他来说最常见的东西以及在那种情况下。

在此先感谢您的帮助!

0个回答
没有发现任何回复~