YouTube 拥有大量视频,其中许多还包含各种口语。这可能会提供类似于“受挑战”婴儿会经历的数据——“受挑战”意味着没有手臂或腿的婴儿(不幸的是,很多人都是这样出生的)。
这难道不允许在具有视觉和音频能力的深度学习系统中进行无监督学习吗?神经网络可能会学习文字和图像之间的相关性,甚至可能学习基本的语言技能,所有这些都无需人工监督。我相信执行此操作的各个组件已经存在。
有没有试过,如果没有,为什么?
YouTube 拥有大量视频,其中许多还包含各种口语。这可能会提供类似于“受挑战”婴儿会经历的数据——“受挑战”意味着没有手臂或腿的婴儿(不幸的是,很多人都是这样出生的)。
这难道不允许在具有视觉和音频能力的深度学习系统中进行无监督学习吗?神经网络可能会学习文字和图像之间的相关性,甚至可能学习基本的语言技能,所有这些都无需人工监督。我相信执行此操作的各个组件已经存在。
有没有试过,如果没有,为什么?
答案是肯定的,请看看谷歌在这方面做了什么:
Google Cloud Video Intelligence 通过使用易于使用的 REST API 提取元数据,使视频可搜索和可发现。您现在可以搜索目录中每个视频文件的每一刻。它可以快速注释存储在 Google Cloud Storage 中的视频,并帮助您识别视频中的关键实体(名词);以及它们何时出现在视频中。
https://cloud.google.com/video-intelligence/
因此,谷歌确实可以识别视频中的各种数据:它将视频的全部内容分类为标签。
人形机器人索菲亚呢?
索菲亚眼中的摄像头与计算机算法相结合,让她能够看到。她可以跟随面孔,保持眼神交流并识别个人。她能够使用自然语言子系统处理语音并进行对话。
https://en.wikipedia.org/wiki/Sophia_(机器人)
这些意图指向从声音和图像中理解(谷歌)和产生(索菲亚)语言的方向。要学会自己思考,机器还没有准备好。如果您更多地了解这两种情况,您会发现这些仍然是非常机械和手动(需要人类预先努力)的事情。
据说机器现在处于蹒跚学步的阶段,可以询问周围事物的名称并为其命名。再等几年,也许能力更先进;)
编辑:
你问过无监督学习。有一个关于麻省理工学院研究员演讲的视频,他对文本和图像进行了实验,在最后的笔记中,他表示用视频做同样的事情会很好,实际上与你的推理相同:学习一门语言。他承诺与同事一起牢记这一点,也许他们中的一些人已经在努力。
编辑2:
关于该主题的有趣研究论文在此链接上:
我们解决了从一组叙述的教学视频中自动学习完成某项任务(例如更换汽车轮胎)的主要步骤的问题。本文的贡献是三方面的。[..] 第三,我们通过实验证明,所提出的方法可以以无监督的方式自动发现完成任务的主要步骤,并在输入视频中定位这些步骤。
是的!无监督机器学习绝对应用于 youtube 视频......识别猫!
这是有关它的文章有线。领先的 ML 研究人员之一是Andrew Ng。
是的,这是可能的,是的,它可能以前已经做过。然而,尝试的人很可能对结果感到失望而忘记告诉别人。
他们可能会感到失望的原因可能是以下任何一种: