首先,对于您的问题,您可以阅读https://www.sciencedirect.com/science/article/abs/pii/S0031320310004619
不幸的是,这些问题没有封闭的答案...... ML 工程师的主要任务之一是决定应用什么算法以及使用原始数据中的哪些特征来解决特定问题......这两个决定都会影响另一个. 几乎 ML 中的每一个决策都与其他决策密切相关......要记住的其他重要事项是可用数据量、硬件限制等......
我怎么知道哪些数据可以提供机器学习算法?
在经典 ML 中,工程师必须决定要计算哪些特征。我的建议是参考专家的论文和贡献来解决类似问题并利用他们的专业知识。功能取决于具体的问题、领域和数据。在音频处理中,众所周知:MFCC、频谱图...
在音频中,一种典型的方法是将音频信号划分为重叠帧并计算它们的特征。这样,可以随时间分析音频特征的演变或动态。以频谱图为例,它可以帮助分析频率分量的演变。
数据预处理也非常重要:音频可以作为特征计算的前一步进行标准化或过滤。
在深度学习中,神经网络尝试为您计算最佳特征。然而,原始音频信号很少直接馈入 ANN。这里的典型过程是计算频谱图(可以解释为图像)并使用卷积神经网络或卷积 LSTM 网络,甚至是 Transformer。
我会使用什么样的机器学习算法?
根据问题,有最先进的图像分类、检测、语音识别方法......
您需要做的第一件事是明确定义您想做什么,了解问题......然后,再次访问其他科学家的方法。
一旦你有了更清晰的想法,如果你有硬件和计算时间限制,你需要弄清楚什么样的解决方案会适应它们。
这些评论可能看起来不是很清楚,但是您放弃了两个非常广泛且难以回答的问题。