数据挖掘 - 如何在不断发展的环境中对二元分类问题进行建模 - 吾爱随笔录

如何在不断发展的环境中对二元分类问题进行建模

数据挖掘机器学习

2021-09-30 16:32:02

假设你有两个类 YES 或 NO 的问题。虽然 YES 类是固定的，但从观察不演变的意义上说，NO 类的观察可能会随着时间的推移而演变，并可能变为 YES 类。我想预测给定观察结果变为“是”的概率。

这里可以使用什么样的机器学习模型？贝叶斯网络可以成为解决方案吗？

我还想观察变量（或哪些变量最重要）中的哪些变化将“否”变为“是”。

谢谢

2个回答

如果您试图预测看起来像概率但实际上并不需要“真实”概率的事物（例如，如果您的目标是对观察结果进行排名以找到最有可能转为否的人），您可能会对数据集使用逻辑回归。这将需要每隔一段时间重新安装模型。

如果您正在寻找实际概率，则必须是在一段时间内从“否”切换为“是”的概率。在这种情况下，您将陷入时间序列分析。这是一个更复杂的问题。

我的直觉是将状态变化视为一种物理随机现象，例如放射性衰变，其中衰变的概率超过 $\Delta t$ 时间段是 $e^{-\lambda \Delta t}$ . 根据过去切换的案例，您可以建立一个回归模型来预测 $\lambda$ 每个观察值。当然，您可以使用指数以外的其他衰减函数（通过验证步骤找到最好的衰减函数）。这最终将允许预测任何给定时间段内的切换概率。

这是一个有趣的问题。这类似于法庭案件审判的一个例子——假设一个人在被证明有罪之前是无罪的（你的“否”标签），并且在被证明时将保持有罪（你的“是”标签）。
现在猜测一个人转变为有罪的机会，我会应用以下技术：

方法 1. 对相似的人进行聚类，并找出其他人的概率。您可以通过具有已标记为 YES 的记录的相似特征来聚类相似案例。您可以在此处使用社区检测进行无监督聚类。

方法 2. 使用马尔可夫链。如果您可以定义在转换为“是”之前通常遵循的观察的可能步骤（或阶段）。然后根据该特定记录所遵循的链，可以猜测概率

其它你可能感兴趣的问题

上一篇“不是什么”神经网络的分类下一篇CNN 中的 Dropout 与 FCNN 中的 Dropout