多模态神经网络

数据挖掘 机器学习 神经网络 多任务学习
2022-03-03 11:51:51

您如何开始创建多模态神经网络?

1个回答

多模式学习可能很复杂(就像任何事情一样),但也可能相当简单。

多模态建模的总体思路是采用并行消费的数据,这些数据具有彼此非常不同的不同“模式”(如音频、视频和文本描述)来预测某事(如果视频是关于猫的,则为实例)。这在此类数据上可能很困难,因为音频、视频和文本的建模策略都非常不同。

多模式学习的一般方法是为每种模式创建一个(或多个)模型,然后创建一个高级模型,该模型使用其他模型的输出来生成最终输出。像这样的东西:

audio -> recognize cat noises -> ?is cat noise in audio ----------------v
video -> recognize cat images -> ?is cat in video -----------------------> final model
text -> recognize text with or relating to cats -> ?is cat in the text -^

这是很多工作,但它与更简单的建模策略并没有太大区别:您只需训练每个模态模型,然后创建一个数据集,将模型的输出作为最终模型的输入。对我来说,这似乎是集成学习的一个特定用例。