波形分析 ML 算法

数据挖掘 机器学习 数据挖掘 张量流 数据清理 音频识别
2022-03-10 02:26:19

我试图从他们的讲话中确定一个人的情绪。这立即敲响了机器学习的钟声,任何 ML 问题的第一步都是获取和处理数据。我的第一个问题是,我如何知道要提供哪些数据来提供机器学习算法?我会提供带有“紧急”分数注释的整个声音文件吗?或者我会将声音文件分解为音高和周期性等?我想我要问的是,在训练机器学习算法时,如何量化一段数据的某些元素/维度的重要性水平?

我的第二个问题是,我会使用哪种机器学习算法?尽管我对 TensorFlow 有一些经验,但我对 ML 还是比较陌生,所以即使只是一个一般概念也会有所帮助。机器学习算法还需要适用于实时音频,并在 2000 毫秒左右返回结果。

感谢您的帮助,如果我应该更具体地更新我的问题的任何组成部分,请告诉我!

1个回答

首先,对于您的问题,您可以阅读https://www.sciencedirect.com/science/article/abs/pii/S0031320310004619

不幸的是,这些问题没有封闭的答案...... ML 工程师的主要任务之一是决定应用什么算法以及使用原始数据中的哪些特征来解决特定问题......这两个决定都会影响另一个. 几乎 ML 中的每一个决策都与其他决策密切相关......要记住的其他重要事项是可用数据量、硬件限制等......

我怎么知道哪些数据可以提供机器学习算法?

在经典 ML 中,工程师必须决定要计算哪些特征。我的建议是参考专家的论文和贡献来解决类似问题并利用他们的专业知识。功能取决于具体的问题、领域和数据。在音频处理中,众所周知:MFCC、频谱图...

在音频中,一种典型的方法是将音频信号划分为重叠帧并计算它们的特征。这样,可以随时间分析音频特征的演变或动态。以频谱图为例,它可以帮助分析频率分量的演变。

数据预处理也非常重要:音频可以作为特征计算的前一步进行标准化或过滤。

在深度学习中,神经网络尝试为您计算最佳特征。然而,原始音频信号很少直接馈入 ANN。这里的典型过程是计算频谱图(可以解释为图像)并使用卷积神经网络或卷积 LSTM 网络,甚至是 Transformer。

我会使用什么样的机器学习算法?

根据问题,有最先进的图像分类、检测、语音识别方法......

您需要做的第一件事是明确定义您想做什么,了解问题......然后,再次访问其他科学家的方法。

一旦你有了更清晰的想法,如果你有硬件和计算时间限制,你需要弄清楚什么样的解决方案会适应它们。

这些评论可能看起来不是很清楚,但是您放弃了两个非常广泛且难以回答的问题。