我正在考虑编写用于模式识别的 AI 代理。
我希望能够不断地向 AI 提供新数据以不断训练它,因为新数据可能具有新模式。
不过,我的问题是我的输入提要有时会中断(数据来自远程计算机),因此某些数据会丢失。另一台计算机向我发送实时数据,因此当连接断开时,就 AI 代理而言,断开连接时的任何新数据都会丢失。(在这一点上,我不打算修复差距,尽管最终减少它们是我的目标之一,在这一点上我不得不假装不可能完成。)
缺失数据对模式识别 AI 有何影响?
我正在考虑编写用于模式识别的 AI 代理。
我希望能够不断地向 AI 提供新数据以不断训练它,因为新数据可能具有新模式。
不过,我的问题是我的输入提要有时会中断(数据来自远程计算机),因此某些数据会丢失。另一台计算机向我发送实时数据,因此当连接断开时,就 AI 代理而言,断开连接时的任何新数据都会丢失。(在这一点上,我不打算修复差距,尽管最终减少它们是我的目标之一,在这一点上我不得不假装不可能完成。)
缺失数据对模式识别 AI 有何影响?
首先,标题提到了“稀疏数据”。最近这个表达式有了一个明确的含义:代理输入是大部分为零的数据。在问题中具有不同的含义:“稀疏数据流”,其中数据有时会流动和消失。我将这个问题理解为:“如果训练数据流中断,训练 AI 仍然有效吗?”
请注意明确的“训练数据流”:该问题表明代理至少有 2 个输入:您想要“随时”提供的训练数据,以及发送给代理进行实际识别的“推理数据”。
这个问题(在我看来)进入了分布式 AI 和多代理系统的领域,最终成为分布式系统中的一个常见问题。
如果我们将您的问题交给两个人 S 和 L 进行通信,当 S 通过可靠的渠道与 L 交谈时,L 会获得所有信息。当通道中断时,L 一无所获。它会阻止L正常生活吗?它只是切断了从 S 到 L 的对话中预期的任何内容。
回到您的场景,每当数据流中断 (S) 时,学习代理 (L) 将无法从该数据源中学习。对模式识别代理的影响受限于它可以从新数据中学到的东西。当数据流中断时,代理识别性能保持不变。
现在,如果学习代理只是在学习,并且没有学习就无法执行识别,则存在架构或实现问题。持续学习需要代理是活跃的(执行实际识别)并从它所做的事情中学习。
更新,澄清:
性能保持不变是“真实的”,但很微妙。在时间t ,相对于智能体迄今为止所看到的,某些指标(如精度)可以达到 99% 。假设持续学习被打断,新的识别请求进来,表现有“两面”:
一个具体的例子:代理被训练用一个数据集来寻找蘑菇,其中所有的图像都是在森林中拍摄的。假设学习停止,当混凝土裂缝上的蘑菇图像出现时,代理可能会做得更糟。只要它不能通过从这种经验中学习来“刷新”,它就会在这种图像上做得更糟。