在过去的几个月里,我一直在学习神经网络,并且正在考虑一些有趣的项目,以巩固我对这项技术的理解。
昨晚想到的一件事是一个系统,它可以拍摄电影海报的图像并预测电影的类型。我想我对执行此操作所需的内容有很好的理解(将数据集放在一起,对其进行扩充,下载在 imagenet 上训练的 convnet,在我的数据集上对其进行微调,然后从那里开始)。
我还认为最后将系统向后运行会很酷,这样我就可以输入诸如“恐怖”之类的类型并让系统生成恐怖电影海报。我预计这会很糟糕,因为我不是一个专家研究团队,但我认为我可以在它上面进行一些有趣的破解,即使它只会产生难以理解的结果。
这是我难以理解的:一方面,我所看到的所有其架构的卷积网络似乎都依赖于非常小的方形输入图像(大约 220 像素 x 220 像素 iirc)和电影海报是矩形的,并且生成的海报必须具有更大的尺寸才能让人类理解它。我看过一些研究人员使用卷积神经网络生成图像的论文示例,例如生成鸟和花图片的对抗系统,以及在给定扫描内部的摄像头馈送时生成接下来几帧视频的系统一个房间,但所有这些生成的图像似乎都是我一直在描述的小正方形。
另一方面,在过去一年左右的时间里,我看到了很多“深梦”图像,它们是由卷积网络生成的,尺寸远大于 ~220px × ~220px。
这是我的问题:我是否有可能构建我所描述的系统,该系统采用电影类型并输出大小如 400 像素 x 600 像素的电影海报?[我不是在问生成的海报是否有任何好处——我很好奇是否可以使用卷积神经网络来生成这种大小的图像。]
如果可能的话,考虑到这些系统似乎期望小的、方形的输入图像,这怎么可能呢?