混沌理论在数据挖掘中的已知实际应用有哪些?

机器算法验证 自习 数理统计 参考 数据挖掘 分形
2022-03-07 07:52:20

在过去几年随便阅读一些关于混沌理论的大众市场著作时,我开始想知道它的各个方面如何应用于数据挖掘和相关领域,如神经网络、模式识别、不确定性管理等。迄今为止,我在已发表的研究中遇到此类应用的示例如此之少,我想知道是否 a) 它们实际上已在已知、已发表的实验和项目中付诸实践;b) 如果没有,为什么它们在这些相互关联的领域中使用如此之少领域?

迄今为止,我看到的大多数关于混沌理论的讨论都围绕着完全有用的科学应用,但与数据挖掘和模式识别等相关领域几乎没有关系。典型的例子之一是物理学中的三体问题。我想放弃对此类普通科学应用的讨论,并将问题仅限于那些与数据挖掘和相关领域明显相关的应用,这些应用在文献中似乎很少见。下面的潜在应用列表可以作为搜索已发表研究的起点,但我只对那些实际已付诸实践的应用感兴趣,如果有的话。我正在寻找的是数据挖掘中混沌理论的已知实现,与更广泛的潜在应用程序列表不同。这是我在阅读时想到的关于数据挖掘应用程序的即兴想法的一小部分;也许它们都不是务实的,也许在我们说话时有些正在实际使用,但请按照我还不熟悉的术语:

  1. 在模式识别中识别自相似结构,就像几十年前 Mandelbrot 在模拟电话线中的错误突发情况下以实际方式所做的那样。
  2. 在采矿结果中遇到费根鲍姆常数(可能类似于弦理论家在他们的研究过程中看到麦克斯韦方程在意想不到的地方突然出现的方式)。
  3. 确定神经网络权重和各种挖掘测试的最佳位深度。我想知道这个是因为对初始条件的敏感性发挥作用的数值尺度非常小,这部分是导致混沌相关函数的不可预测性的原因。
  4. 以其他方式使用分数维的概念不一定与迷人的分形好奇心相关,例如门格尔海绵、科赫曲线或谢尔宾斯基地毯。也许这个概念可以以某种有益的方式应用于挖掘模型的维度,将它们视为分数?
  5. 导出幂律,例如在分形中发挥作用的幂律。
  6. 由于分形中遇到的函数是非线性的,我想知道非线性回归是否有一些实际应用。
  7. 混沌理论与熵有一些切线(有时被夸大)的关系,所以我想知道是否有某种方法可以从混沌理论中使用的函数计算香农的熵(或对其及其亲属的限制),反之亦然。
  8. 识别数据中的倍周期行为。
  9. 通过智能地选择最有可能以有用的方式“自组织”的结构来识别神经网络的最佳结构。
  10. 混沌和分形等也与计算复杂度相关,所以我想知道是否可以使用复杂度来识别混沌结构,反之亦然。
  11. 我第一次听说混沌理论中的李雅普诺夫指数,从那以后在特定神经网络的配方和熵的讨论中注意到它几次。

可能还有很多其他的关系我没有在这里列出;所有这一切都从我的脑海中浮现。我对这些特定推测的具体答案并没有狭隘的兴趣,而只是将它们作为可能存在于野外的应用程序类型的示例扔在那里。只要这些应用程序特别适用于数据挖掘,我希望看到回复中包含当前研究的示例和此类想法的现有实现。

可能还有其他我不知道的现存实现,即使在我更熟悉的领域(如信息论、模糊集和神经网络)和其他我更不擅长的领域,如回归,所以更多的输入很受欢迎。我在这里的实际目的是确定是否在学习混沌理论的特定方面进行更多投资,如果我找不到一些明显的实用性,我将把它放在次要位置。

我搜索了 CrossValidated,但没有看到任何直接解决混沌理论在数据挖掘等方面的实用应用的主题。我能找到的最接近的主题是Chaos theory, equation-free modeling and non-parametric statistics,它涉及具有特定子集。

2个回答

作为一种实用方法的数据挖掘 (DM) 似乎与数学建模 (MM) 方法几乎是互补的,甚至与混沌理论 (CT) 相矛盾。我先说DM和一般MM,然后重点说CT。

数学建模

直到最近,在经济建模中,DM 几乎被认为是一种禁忌,一种寻找相关性而不是学习因果关系的黑客,请参阅SAS 博客中的这篇文章。态度正在改变,但存在许多与虚假关系数据挖掘p-hacking等相关的陷阱。

在某些情况下,即使在已建立 MM 实践的领域,DM 似乎也是一种合法的方法。例如,DM 可用于在产生大量数据的物理实验中搜索粒子相互作用,例如粒子粉碎机。在这种情况下,物理学家可能会了解粒子的外观,并在数据集中搜索模式。

混沌理论

混沌系统可能特别难以使用 DM 技术进行分析。考虑一种常见的伪随机数生成器中使用的熟悉的线性同余方法 ( LCG ) 本质上是一个混沌系统这就是为什么它被用来“伪造”随机数的原因。一个好的生成器将无法与随机数序列区分开来。这意味着您将无法通过使用统计方法来确定它是否是随机的。我也会在这里包括数据挖掘。尝试通过数据挖掘在 RAND() 生成的序列中找到模式!然而,正如你所知,它又是一个完全确定的序列,它的方程也非常简单。

混沌理论不是随机寻找相似性模式。混沌理论涉及学习过程和动态关系,使得系统中的小扰动放大,产生不稳定的行为,而在这种混沌中,稳定的模式会以某种方式出现。所有这些很酷的东西都是由于方程本身的特性而发生的。然后研究人员研究这些方程及其系统。这与应用数据挖掘的思维方式非常不同。

例如,您可以在研究混沌系统时谈论自相似模式,并注意到数据挖掘者也谈论模式搜索。但是,这些处理“模式”概念的方式非常不同。混沌系统将从方程中生成这些模式。他们可能会尝试通过观察实际系统等来提出他们的方程组,但他们总是在某个时候处理方程。数据挖掘者来自另一边,对系统的内部结构不太了解或猜测,他们会尝试寻找模式。我不认为这两个小组曾经查看过相同的实际系统或数据集。

另一个例子是费根鲍姆用来创建他著名的周期倍增分岔的最简单的逻辑图。

在此处输入图像描述

这个等式非常简单: 但是,我不知道如何用数据挖掘技术发现它。

xn+1=rxn(1xn)

为了回答这个问题,我在阅读混沌理论时发现的最奇怪的事情是数据挖掘及其相关领域利用混沌理论的已发表研究的惊人缺乏。尽管通过查阅 AB Ҫambel 的 Applied Chaos Theory: A Paradigm for Complexity 和 Alligood 等人的 Chaos: An Introduction to Dynamical Systems(后者作为这个主题)和突袭他们的书目。毕竟,我只是想出了一个可能符合条件的研究,我不得不扩展“数据挖掘”的范围,只为了包括这个边缘案例:德克萨斯大学的一个团队对 Belousov-Zhabotinsky (BZ) 反应(已知容易出现非周期性)进行研究,意外发现由于混沌模式而在他们的实验中使用的丙二酸存在差异,促使他们寻求新的供应商。[1] 可能还有其他的——我不是混沌理论的专家,很难对文献进行详尽的评价——但是如果我们将它们全部列举出来,与物理学中的三体问题等普通科学用途的明显不成比例不会有太大变化。事实上,在这个问题结束的过程中,我考虑将其改写为“为什么混沌理论在数据挖掘及相关领域的实现如此之少?” 这与在数据挖掘和相关领域(如神经网络、模式识别、不确定性管理、模糊集等)中应该有大量应用的定义不明确但普遍存在的观点不一致;毕竟,混沌理论也是一个具有许多有用应用的前沿话题。我必须仔细思考这些领域之间的界限到底在哪里,才能理解为什么我的搜索没有结果,我的印象是错误的。

;tldr 答案

对这种研究数量的严重不平衡和与预期的偏差的简短解释可以归因于混沌理论和数据挖掘等回答了两类完全分开的问题。一旦指出,它们之间的尖锐二分法就很明显,但又如此根本以至于被忽视,就像看自己的鼻子一样。混沌理论和数据挖掘等领域的相对新颖性解释了实现的一些缺乏,这可能有一些理由,但我们可以预期,即使这些领域成熟,相对不平衡仍会持续存在,因为它们只是解决了不同方面的问题。同一枚硬币。迄今为止,几乎所有的实现都在研究具有明确定义的输出的已知函数,这些函数恰好表现出一些令人费解的混沌畸变,而数据挖掘和诸如神经网络和决策树之类的单个技术都涉及确定未知或定义不明确的函数。模式识别和模糊集等相关领域同样可以被视为功能结果的组织,这些功能通常也是未知或定义不明确的,而该组织的手段也不是很明显。这创造了一个实际上无法逾越的鸿沟,只能在某些罕见的情况下跨越——但即使是这些也可以在一个用例的标题下组合在一起:防止对数据挖掘算法的非周期性干扰。模式识别和模糊集等相关领域同样可以被视为功能结果的组织,这些功能通常也是未知或定义不明确的,而该组织的手段也不是很明显。这创造了一个实际上无法逾越的鸿沟,只能在某些罕见的情况下跨越——但即使是这些也可以在一个用例的标题下组合在一起:防止对数据挖掘算法的非周期性干扰。模式识别和模糊集等相关领域同样可以被视为功能结果的组织,这些功能通常也是未知或定义不明确的,而该组织的手段也不是很明显。这创造了一个实际上无法逾越的鸿沟,只能在某些罕见的情况下跨越——但即使是这些也可以在一个用例的标题下组合在一起:防止对数据挖掘算法的非周期性干扰。

与混沌科学工作流程不兼容

“混沌科学”中的典型工作流程是对已知函数的输出进行计算分析,通常与相空间的视觉辅助工具一起进行,如分岔图、Hénon 映射、庞加莱截面、相图和相轨迹。研究人员依赖计算实验这一事实说明了发现混沌效应是多么困难。这不是您通常可以用笔和纸来确定的。它们也只出现在非线性函数中。除非我们有一个已知的函数可以使用,否则这个工作流程是不可行的。数据挖掘可能会产生回归方程、模糊函数等,但它们都具有相同的局限性:它们只是一般的近似值,具有更宽的误差窗口。相比之下,受混沌影响的已知函数相对较少,与产生混沌模式的输入范围一样,因此即使测试混沌效应也需要高度的特异性。任何出现在未知函数相空间中的奇怪吸引子肯定会随着它们的定义和输入的变化而完全改变或消失,这使得 Alligood 等作者概述的检测程序变得非常复杂。

混沌作为数据挖掘结果中的污染物

事实上,数据挖掘及其亲属与混沌理论的关系实际上是对立的。如果我们将密码分析广义地视为一种特定形式的数据挖掘,这确实是真的,因为我至少看过一篇关于在加密方案中利用混乱的研究论文(我目前找不到引用,但可以搜索它应要求而下降)。对于数据挖掘者来说,混沌的存在通常是一件坏事,因为它输出的看似荒谬的值范围会使逼近未知函数的本已艰巨的过程大大复杂化。在数据挖掘和相关领域中,混沌最常见的用途是排除它,这绝非易事。如果存在混沌效应但未被发现,它们对数据挖掘企业的影响可能难以克服。想想普通的神经网络或决策树有多么容易过度拟合混沌吸引子看似荒谬的输出,或者输入值的突然尖峰肯定会混淆回归分析,并可能归因于错误的样本或其他错误来源。所有函数和输入范围中混沌效应的罕见性意味着对它们的研究将被实验者严重剥夺优先权。

在数据挖掘结果中检测混沌的方法

与混沌理论相关的某些度量可用于识别非周期效应,例如 Kolmogorov 熵和相空间呈现正 Lyapunov 指数的要求。这些都在 AB Ҫambel 的应用混沌理论中提供的混沌检测清单 [2] 中,但大多数都不适用于近似函数,例如 Lyapunov 指数,它需要具有已知限制的明确函数。他概述的一般程序在数据挖掘情况下可能仍然有用。Ҫambel 的目标最终是“混沌控制”计划,即消除干扰的非周期效应。[3] 在数据挖掘应用中,计算盒计数和相关维度等其他方法可能比 Lyapunov 和他列表中的其他人更实用。混沌效应的另一个明显迹象是函数输出中存在周期加倍(或三倍及以上)模式,这通常先于相图中的非周期(即“混沌”)行为。

区分切向应用

这个主要用例必须与仅与混沌理论切线相关的单独一类应用程序区分开来。仔细观察,我在问题中提供的“潜在应用”列表实际上几乎完全包含利用混沌理论所依赖的概念的想法,但可以在没有非周期性行为的情况下独立应用(周期加倍除外)。我最近想到了一种新的潜在利基用途,产生非周期性行为以将神经网络从局部最小值中弹出,但这也属于切向应用列表。其中许多是由于对混沌科学的研究而发现或充实的,但可以应用于其他领域。这些“切向应用”彼此之间只有模糊的联系,却形成了一个独特的类别,与数据挖掘中混沌理论的主要用例有硬性界限;第一个利用混沌理论的某些方面而没有非周期性模式,而后者专门用于排除混沌作为数据挖掘结果中的一个复杂因素,可能使用诸如李雅普诺夫指数的正性和周期倍增检测等先决条件. 如果我们区分混沌理论和它正确使用的其他概念,很容易看出前者的应用本质上仅限于普通科学研究中的已知函数。在没有混乱的情况下,确实有充分的理由对这些次要概念的潜在应用感到兴奋,但也有理由担心出现意外的非周期性行为对数据挖掘工作的污染影响。这种情况很少见,但这种罕见也可能意味着它们不会被发现。不过,安贝尔的方法可能有助于避免此类问题。

[1] 第 143-147 页,Alligood, Kathleen T.;Sauer, Tim D. 和 Yorke, James A.,2010,混沌:动力系统简介,施普林格:纽约。[2] pp. 208-213, Ҫambel, AB, 1993, Applied Chaos Theory: A Paradigm for Complexity, Academic Press, Inc.:波士顿。[3] 页。215,安贝尔。