当我开始编写用于色谱图处理的软件时,我天真地以为我会找到一些现有的算法来自动完成所有峰值检测,并且不需要任何手动管理。但似乎该领域的主要软件都没有以这种方式工作。用户必须手动设置适用于某些色谱图但不适用于其他色谱图的参数(峰宽、阈值)。因此,要么是无休止地调整参数,要么是手动校正。
我的问题是哲学问题:是什么让这个问题无法解决?其他领域(天文学、粒子物理学)在自动解释测量时是否有类似的问题?除了 DSP(例如机器学习)之外的其他方法在这里有用吗?
当我开始编写用于色谱图处理的软件时,我天真地以为我会找到一些现有的算法来自动完成所有峰值检测,并且不需要任何手动管理。但似乎该领域的主要软件都没有以这种方式工作。用户必须手动设置适用于某些色谱图但不适用于其他色谱图的参数(峰宽、阈值)。因此,要么是无休止地调整参数,要么是手动校正。
我的问题是哲学问题:是什么让这个问题无法解决?其他领域(天文学、粒子物理学)在自动解释测量时是否有类似的问题?除了 DSP(例如机器学习)之外的其他方法在这里有用吗?
这是我们目前也在研究的一个问题(在下面添加了两篇最近发表的论文),因为我们发现它尚未解决,而如今的高通量实验需要更自动化的高通量分析。
第一组原因是“有趣的峰值数据”上的类似 DSP 的干扰:非线性(如饱和)、附加噪声(具有未知分布)和基线(具有未知规律性)。它们可能与溶质或基质效应、色谱类型(液体、气体)、色谱柱、检测器、混合物的复杂性等有关。我们可以在测量工具中包含或多或少可见的处理:采样(每峰?),平滑,归一化。
在气相色谱中,有像高斯形状这样的模型,可以用物理模型(板)来解释。然而,分离的峰可能会出现扭曲,例如前端和拖尾,或其他不对称,这些扭曲会在整个色谱图中以不均匀的方式变化。
即使使用“良好”采样的离散高斯,非常接近的峰也可能难以分离或区分(肩负效应)。更广泛地说,高斯和的反卷积仍然很困难,因为直接问题是不适定的:有很多方法可以将单个高斯与多个高斯之一拟合,并且算法需要额外的优化项(约束、正则化),这些结合数据保真度项(通常是最小二乘,但其他选择很有趣)时调整参数。
据我所知,这些问题存在于其他分析化学模式中:核磁共振、红外、质谱、拉曼等,每个都有自己的问题。NMR 中与分子相互作用相关的可变峰移是后续(盲)源分离算法的挑战。
有使用更多机器学习技术的工作,但使用物理或 DSP 模型可能会对他们有所帮助。
拟合困难的一个可能起点:通过曲线拟合获得的色谱峰面积对峰形函数选择的依赖性,1997
我们最近考虑了几种重建或恢复物理化学信号的方法。他们绝对不是游戏的结束:
SPOQ ℓp-Over-ℓq 正则化用于质谱的稀疏信号恢复,IEEE Transactions on Signal Processing,2020(Matlab 代码 SPOQ 工具箱)
欠定或不适定的逆问题需要额外的信息来获得具有易处理优化算法的 \ldd{d} 合理解决方案。稀疏性产生了相应的启发式方法,在信号恢复、图像恢复或机器学习中有许多应用。由于 ℓ0 计数度量很难处理,因此许多统计或学习方法都投资于可计算代理,例如 ℓ1 范数。然而,后者没有表现出稀疏数据的尺度不变性的理想特性。扩展最初为盲反卷积引入的 SOOT Euclidean/Taxicab ℓ1-over-ℓ2 范数比,我们提出了 SPOQ,一个平滑(近似)尺度不变的惩罚函数族。它由 ℓp-over-ℓq 准范数/范数比的 Lipschitz 可微代理组成,其中 p∈]0,2[ 和 q≥2。这个代理被嵌入到一种新颖的majorize-minimize trust-region方法中,泛化了可变度量前向后向算法。对于自然稀疏的质谱信号,我们表明 SPOQ 在几个性能指标上显着优于 ℓ0、ℓ1、Cauchy、Welsch、SCAD 和 Celo 惩罚。还提供了 SPOQ 超参数调整指南,建议简单的数据驱动选择。
通过分段有理优化对非线性模型进行稀疏信号重构,信号处理,2021
我们提出了一种重建稀疏信号的方法,该方法因非线性失真而退化并以有限的采样率获取。我们的方法将重建问题表述为数据拟合项和惩罚项之和的非凸最小化。与解决近似局部解决方案的大多数先前工作相比,我们寻求对所获得的具有挑战性的非凸问题的全局解决方案。我们的全局方法依赖于多项式优化的所谓 Lasserre 松弛。我们在这里特别在我们的方法中包括分段有理函数的情况,这使得解决 ℓ0 惩罚函数的一类广泛的非凸精确和连续松弛成为可能。此外,我们研究了优化问题的复杂性。它展示了如何使用问题的结构来有效地减轻计算负担。最后,数值模拟说明了我们的方法在全局最优性和信号重建方面的好处。