映射/分类问题的指导/头脑风暴

信息处理 分类
2022-02-15 18:17:35

我对机器学习/数据挖掘很陌生,我正在努力为我的问题找到正确的路径,并且希望对我提出的解决方案提供一些指导或批评,即是否有更好/更简单的算法来解决这个问题?

问题

我有许多功能可以描述预定级别“v”的特定类型(标签)的波(音频帧)。我希望能够识别未知波的级别并将其与属于同一更高级别类别的其他类型的波区分开来。

假设

  1. 测试集中的组应按级别 v 的递增顺序排列
  2. 组中波的类型应相同且已知

建议的解决方案

第一阶段:级别选择

  1. 对于给定类型的波,计算 N 个样本的每个级别的特征

  2. 对于每个级别,计算 N 个样本的每个特征的平均值/中值,以创建每个级别的特征向量。

  3. 通过减去经验均值并除以方差来归一化特征集。

  4. 使用特征集获取传入向量的欧几里得/曼哈顿距离,并选择最接近的级别。

  5. 对于具有指定级别的组,将级别与邻居进行比较并报告负差异(应该是递增的)或较大的差异。

第二阶段:类型选择

  1. 将传入向量的欧几里得/曼哈顿距离与特定级别的每种类型的特征集或可能跨所有级别选择最接近的类型。

问题的延伸

功能随着时间和级别而发展

建议的解决方案

对每一帧重复上述解决方案的阶段。

谢谢你的帮助

*更新 我不能保证水平 v 在数据中是相等的我只能保证订单在增加。即样本 A 可能有 5 个级别 v= 1,..,5,它们对应于 {1,..,5},样本 B 有 10 个样本 v = 1,2,..10,它们对应于 {.5, 1,1.5,...,10}。我如何在不知道级别之间的关系的情况下捕捉到这一点并识别那些不遵循这种模式的人。如果不清楚,请告诉我

2个回答
  • 您需要确定您的特征向量正在捕获您正在寻找的属性。除非您的问题非常简单,否则使用均值和中值进行降维(即提取特征)不是一个好的选择。更好的选择是:PCA、ICA 和 SVM。如果您的信号在 FFT 或 DCT 域中是稀疏的,那么捕获频域中的特征也是一个很好的工具。
  • 要将特征向量与级别“v”联系起来,您可以使用 GP。

  • 假设“v”级别由特征向量确定,我不明白为什么需要分别对每个组进行建模......在音频片段中添加帧的位置也应该是不必要的。

  • 如果 GP 模型失败,则可以尝试将元素添加到描述组中音频帧位置的特征向量。

祝你好运。