在进行研究时,我最近偶然发现了深度学习和自然语言处理的概念。在这个问题中,他们说“语法归纳”是一种“监督学习”模式。所以我想知道:
假设有一个远超人类的智能外星探测器围绕我们的星球运行。它可以接收、解码和分析所有离开地球的广播信号。就我们目前所知,除了我们的广播信号,它怎么能学习一种语言的基础知识,所以没有“主管”的帮助?人工智能人类工程师(理论上?)将如何面对这个问题?
我对这个问题更“技术”的一面感兴趣。
在进行研究时,我最近偶然发现了深度学习和自然语言处理的概念。在这个问题中,他们说“语法归纳”是一种“监督学习”模式。所以我想知道:
假设有一个远超人类的智能外星探测器围绕我们的星球运行。它可以接收、解码和分析所有离开地球的广播信号。就我们目前所知,除了我们的广播信号,它怎么能学习一种语言的基础知识,所以没有“主管”的帮助?人工智能人类工程师(理论上?)将如何面对这个问题?
我对这个问题更“技术”的一面感兴趣。
我想我理解你的困惑来自哪里,以及你提出问题的原因。
当我们谈论一个有监督的问题时,这意味着有一些关于机器在特定任务中表现如何的反馈。当然,我们总是以某种方式需要这种反馈(否则,机器永远不会学习,因为它没有动力去改变它所做的任何事情),但是如果我们将反馈归类为“有监督的”如果我们只是推出结果并尝试每次都做得更好,那么就有一种明确的方式来判断什么时候是对/错,或者“无人监督”。
例如,在另一个问题中执行翻译(如在语法归纳中)的 AI 将把短语和句法树都作为输入。在对短语的句法树进行预测后,可以将其与作为输入的真实句法树进行比较,并根据预测的准确性、权重(将其视为调整结果的“旋钮”) ) 可以稍作调整,以便下次提供更好的预测。
这种类型的学习被认为是有监督的,不是因为有监督者的存在,而是因为我们可以使用标记数据来测试预测并在下次改进它们。
无监督问题没有这种带标签的数据,只能使用它们拥有的数据。他们无法根据预测判断什么是对的,什么是错的,他们只有原始数据,并试图通过提取相关性或共同属性来理解它。
对于语言的情况,我会在这里冒险,但我会说这很可能是监督算法的任务。无监督技术可以正确分析语言并确定它们实际上具有特定结构,但对于许多其他非语言数据源也是如此。一个对人类一无所知的外星种族最终可能会推断出汽车鸣喇叭也是某种语言,尽管它比人类产生的噪音简单得多。
此外,语言的自然灵活性使其更加复杂,因为它们没有完全遵循正确的结构,更糟糕的是,它们不断变化。
正如 leitasat 在他们的评论中提到的那样,如果即使是人类科学家(我们当然认为他们很聪明)也无法在没有任何背景的情况下自行破译古埃及,那么机器不太可能做到这一点。
最后,请注意翻译机或推理机实际上并没有以有意义的方式获得意义。无需过多详细说明,您应该将它们视为“相关检测机器”——因此机器可能会注意到西班牙语中“Hola”的使用方式与英语中“Hi”的使用方式之间存在足够高的相关性,以及通过向您提供这些信息,我们称其为翻译。然而,内部学习结构实际上只是给定一组输入的输出的概率分布。
并不是说这些都没有用——它肯定是——但是对于像超人类智能的外星种族这样独立的东西,并且无法从一堆声音中获得意义,这是不太可能的机器将证明在这种相关性中很有用。
而且,我仍然无法阻止你的想法——如果这些外星人有一种语言,并且他们表达的概念与人类表达的相同,那么就有相关性。只需要有一种方法可以找到它。
很抱歉文字墙和冗长的杂乱无章,我希望我提供了一些关于您正在寻找澄清的点的背景信息。