除了使用“音频”标签之外,我们在这里处理的是哪种信号并不完全清楚。如果信号具有更宽的带宽,那么这将更接近于发病检测。但这不是我们在这里要处理的。我们在这里处理的是一个缓慢变化的波形,当它从某种背景活动中出现时,它被认为是“开启”的。这种观点将使其更接近异常检测或“异常检测”类型的问题。
您可以在这里采取几种方法。一种是拟合一个包含“激活”参数的模型,然后尝试查看该参数何时转变为激活并将该点作为开始的开始。如果你开始了模型拟合的道路,最终你将不得不在这些曲线上训练你的模型,以便它了解所有可能存在的不同的“激活途径”。例如,第三条迹线显示背景活动,过渡到中间高原,在激活时过渡到完全,甚至在“激活”区域,它的斜率也可能显示出进一步的变化。
因此,在您开始研究这些技术之前,也许您可以尝试通过信号统计来检测异常值的普通老技术。
作为人类(?),您似乎很清楚何时将这条曲线视为“开启”。因此,收集“背景”区域内的所有信号样本,并使用箱线图或拟合此数据的分布。该分布的最简单示例是具有均值和标准差的高斯分布。这模拟了您的“正常”区域。从该分布中可能出现的任何价值都值得怀疑,它是否属于“背景”或“激活”部分。但并非所有值都如此,因为很快(随着时间向右发展),曲线将开始向分布的极值点推进,在该极值点处,生成此类值的概率会越来越小。
在那里设置一个硬阈值,可以让您估计“激活”区域的开始位置。
希望这可以帮助。
编辑:
在分享了有关该问题的更多信息后,我更倾向于建议一种直接作用于音频数据的起始检测技术。
无论如何,以下(洞穴)插图可能对本文中的早期建议有所帮助。

在确定从“背景”到“关键”的最早过渡点(而不是自动进行)时,“人类”评论开始发挥作用。您使用波形“背景”部分中的数据来估计来自“背景”部分的样本意味着什么的统计数据,并使用它来确定样本现在更有可能属于的阈值到“关键”部分。
或者:

通过在“Key on”斜率上对齐许多类似设置的镜头,并用一系列箱线图总结所有这些数据,每个箱线图都会告诉您在每个时间实例中您可以预期的值限制类型。然后使用该信息来选择与背景有偏差的时间点。
(分别来自本和本维基百科文章的箱线图和分布的插图。)