如何对参数曲线进行分类?

数据挖掘 机器学习 分类 异常检测
2022-02-09 15:31:26

我正在开展一个项目,该项目旨在根据某种运动(例如,将头部从左转向右等)确定患者是否有颈椎问题。

对于每位患者,我都有一组或多组使用 VR 耳机获取的坐标。一个问题是,所有患者都被认为是健康的,我无法将他们的数据与实际患有宫颈问题的患者进行比较。

我目前一次使用两个坐标,而不是三个,我正在考虑两种方法:第一种是使用近似值(样条线......),第二种是使用凹壳。我更倾向于使用船体,我认为我可以计算两个船体 A 和 B 之间的距离,如下所示:面积(A\B)+面积(B\A)。请注意,曲线是参数化的。

我有两个问题:

  1. 是否可以使用仅由健康患者组成的数据集对患者进行“分类”?或者为他们找到一个“描述符”?
  2. 如果是这样,或者假设我可以获得不健康患者的数据,我可以使用哪些工具对曲线进行分类?我没有找到任何解决类似问题的人。
1个回答

每当您倾斜数据集时,就意味着您比其他一些类更了解某些类。在这种情况下,这意味着数据是您的知识,并且有适合这种情况的学习算法。

在这里考虑一个重要的事实。假设您有一家核公司状况的特征向量,它们描述了该公司是否处于核辐射危险中。在这种情况下,很明显,您感染公司的情况并不多,因此您的大部分数据都带有健康状况的标签。您对健康类有很多了解,但对受感染类了解不多,因为您没有太多数据,因此您不知道它的分布,也无法很好地估计它。每当您的数据倾斜时,这意味着例如您有 100 万个负类特征向量和 5 个正类特征向量。现在假设您更改了特征向量。在这种情况下,您的数据集不平衡,或者您只有某些类别的数据样本而没有其他类别,异常检测

在数据挖掘中,异常检测(也称为异常检测)是识别不符合预期模式或数据集中其他项目的项目、事件或观察结果。通常,异常项目将转化为某种问题,例如银行欺诈、结构缺陷、医疗问题或文本错误。异常也被称为异常值、新奇、噪声、偏差和异常。