我所说的强化学习,并不是指DeepQ等机器学习算法类。我脑海中指的是基于奖励和惩罚的学习的一般概念。
是否有可能创建一个不依赖于强化学习的强人工智能,或者强化学习是人工智能的必要条件?
奖惩的存在意味着有利和不利的世界国家的存在。一般的智能,尤其是人工智能,是否必须有一种方法可以将世界状态分类为有利或不利?
我所说的强化学习,并不是指DeepQ等机器学习算法类。我脑海中指的是基于奖励和惩罚的学习的一般概念。
是否有可能创建一个不依赖于强化学习的强人工智能,或者强化学习是人工智能的必要条件?
奖惩的存在意味着有利和不利的世界国家的存在。一般的智能,尤其是人工智能,是否必须有一种方法可以将世界状态分类为有利或不利?
不可能对您的问题给出明确的“是”答案,因为这需要证明不存在替代方案。
从哲学上讲,这取决于您所说的“优先于世界国家”的含义:
不管看起来多么违反直觉,可以想象完全根据局部条件-动作规则创建强人工智能是可能的,其中没有“偏好值”的全局概念和/或“世界状态”的综合概念。
简而言之,我们还不知道如何创建强大的人工智能,因此我们不知道创建它需要或不需要什么。充其量我们可以进行“知情推测”,在这种情况下,我会说答案更有可能是“是”而不是“否”。但这基本上只是一种预感。
如果您对创建强 AI 可能需要哪些“片段”有一个很好的概述,并且如果您还没有阅读它,那么佩德罗·多明戈斯 ( Pedro Domingos ) 的书The Master Algorithm可能会感兴趣。
很简单,但是它会导致神经网络的过度修复。
人类倾向于不死,这只有在为系统定义了一个结果后才能实现,以实现死亡是一个不利的结果。这可以是train vai观察。允许您的系统在 2 个或更多独立的人员/系统之间进行观察。然后允许有机会在安全环境中使用预先存在的可能发生的后果的信息进行测试,证明如果系统在测试/安全环境中出错,它将被未知地保存,然后通知它出错了,将系统置于相同条件下的不安全世界中,通知它如果发生某些事情,它将死亡。这就是人类成长的方式,我们已经用这种技术持续了很长时间。
在过去的 7 年里,我一直是一名 AI 研究员和软件工程师。
反省!为了理解和/或学习,您是否需要知道什么是好/坏、愉快/痛苦等?
我是人类,因此是一般智力,你也是。所以认识你自己!我可以告诉自己,我有不同的理解和学习方式;有些可能类似于强化学习。特别是。〜自动〜先天〜无意识的,如运动,记住美味的食物和许多其他原始功能。
但我也可以通过~有意的~分析的~逻辑思维来理解事物;有些人可能称之为纯粹理性(伊曼纽尔·康德)。
然而,你不需要听到所有这些,因为它已经在你自己的脑海里了。