我对机器学习/数据挖掘很陌生,我正在努力为我的问题找到正确的路径,并且希望对我提出的解决方案提供一些指导或批评,即是否有更好/更简单的算法来解决这个问题?
问题
我有许多功能可以描述预定级别“v”的特定类型(标签)的波(音频帧)。我希望能够识别未知波的级别并将其与属于同一更高级别类别的其他类型的波区分开来。
假设
- 测试集中的组应按级别 v 的递增顺序排列
- 组中波的类型应相同且已知
建议的解决方案
第一阶段:级别选择
对于给定类型的波,计算 N 个样本的每个级别的特征
对于每个级别,计算 N 个样本的每个特征的平均值/中值,以创建每个级别的特征向量。
通过减去经验均值并除以方差来归一化特征集。
使用特征集获取传入向量的欧几里得/曼哈顿距离,并选择最接近的级别。
对于具有指定级别的组,将级别与邻居进行比较并报告负差异(应该是递增的)或较大的差异。
第二阶段:类型选择
- 将传入向量的欧几里得/曼哈顿距离与特定级别的每种类型的特征集或可能跨所有级别选择最接近的类型。
问题的延伸
功能随着时间和级别而发展
建议的解决方案
对每一帧重复上述解决方案的阶段。
谢谢你的帮助
*更新 我不能保证水平 v 在数据中是相等的我只能保证订单在增加。即样本 A 可能有 5 个级别 v= 1,..,5,它们对应于 {1,..,5},样本 B 有 10 个样本 v = 1,2,..10,它们对应于 {.5, 1,1.5,...,10}。我如何在不知道级别之间的关系的情况下捕捉到这一点并识别那些不遵循这种模式的人。如果不清楚,请告诉我