如何在不断发展的环境中对二元分类问题进行建模

数据挖掘 机器学习
2021-09-30 16:32:02

假设你有两个类 YES 或 NO 的问题。虽然 YES 类是固定的,但从观察不演变的意义上说,NO 类的观察可能会随着时间的推移而演变,并可能变为 YES 类。我想预测给定观察结果变为“是”的概率。

这里可以使用什么样的机器学习模型?贝叶斯网络可以成为解决方案吗?

我还想观察变量(或哪些变量最重要)中的哪些变化将“否”变为“是”。

谢谢

2个回答

如果您试图预测看起来像概率但实际上并不需要“真实”概率的事物(例如,如果您的目标是对观察结果进行排名以找到最有可能转为否的人),您可能会对数据集使用逻辑回归。这将需要每隔一段时间重新安装模型。

如果您正在寻找实际概率,则必须是在一段时间内从“否”切换为“是”的概率。在这种情况下,您将陷入时间序列分析。这是一个更复杂的问题。

我的直觉是将状态变化视为一种物理随机现象,例如放射性衰变,其中衰变的概率超过 Δ 时间段是 e-λΔ. 根据过去切换的案例,您可以建立一个回归模型来预测λ每个观察值。当然,您可以使用指数以外的其他衰减函数(通过验证步骤找到最好的衰减函数)。这最终将允许预测任何给定时间段内的切换概率。

这是一个有趣的问题。这类似于法庭案件审判的一个例子——假设一个人在被证明有罪之前是无罪的(你的“否”标签),并且在被证明时将保持有罪(你的“是”标签)。
现在猜测一个人转变为有罪的机会,我会应用以下技术:

方法 1. 对相似的人进行聚类,并找出其他人的概率。您可以通过具有已标记为 YES 的记录的相似特征来聚类相似案例。您可以在此处使用社区检测进行无监督聚类。

方法 2. 使用马尔可夫链。如果您可以定义在转换为“是”之前通常遵循的观察的可能步骤(或阶段)。然后根据该特定记录所遵循的链,可以猜测概率