使用一类支持向量机进行雪崩预测的论文

数据挖掘 机器学习 Python 分类 预测建模 支持向量机
2021-10-12 23:28:30

我正在使用机器学习完成关于雪崩预测的论文。

对于我的输入特征,我使用了具有坡度、高度、坡面方向等特征的雪崩事故,并结合了雪崩发生当天的相应天气数据。

当某些变量结合并产生致命的雪崩情况时,我想预测雪崩。所以1:发生雪崩。0:不发生雪崩。

我数据库中唯一的数据是发生雪崩,我得到了大约 200 个样本。所以我没有任何关于非致命雪崩情况的数据,大多数情况下都是这样。

我的问题是,One Class SVM 是否是进行此分类的好方法?

3个回答

您的问题似乎属于OCC问题一般领域的新颖性检测。

所以,简短的回答是:是的。您可以应用SVDD(支持向量数据描述)方法来获取数据集中包含样本的最小超球面,然后评估新观察值是否为异常值。

当然,您的数据集越不具有代表性,您的分类器就越不准确。

您可以使用数据挖掘的方法来预测雪崩,但是,根据我对登山的基本雪崩知识,我可以为您提供一些坑洼。

  1. 你想预测什么?自发雪崩(主要威胁村庄和道路)或人为雪崩(主要影响滑雪者)。这些因素完全不同
  2. 已经提到了获取数据。有一些与雪崩事件相关的数据集,例如在瑞士雪崩研究所:https ://www.slf.ch/de/lawinen/unfaelle-und-schadenlawinen/alle-gemeldeten-lawinenunfaelle-aktuell.html 但是,自然很少有关于没有触发雪崩以及触发雪崩但没有人造成伤害的情况的数据,因此没有报告。已经有人尝试根据互联网上的巡回报道来估计巡回演出的人数。
  3. 获得精确的数据更是一个问题。考虑本周报告中的图 2:https : //www.slf.ch/de/lawinenbulletin-und-schneesituation/wochen-und-winterberichte/201819/wob-18-25-april.html时差45分钟,看起来完全不同。
  4. 特征选择是另一个大问题。您提到要使用事件当天的天气数据。我认为这是得出错误的结论,因为大多数滑雪雪崩都发生在周末,而且天气可能稍好一些。此外,大多数人会很明智,不会在有风险的日子去滑雪旅游。这很有可能会扭曲您的数据和模型

您能否寻找任何可能的方法来获取非雪崩数据?

1)雪崩发生在山脉中。您能否将雪崩发生当天的相邻峰值数据添加到您的数据中?

2)您可能从数据探索中获得了很好的见解。例如,山应该能够产生雪崩的最小坡度是多少?温度范围?

3) 您能否寻找可以与您的数据结合的其他数据集(具有非雪崩条目)?