使用后期制作软件实际将场景放置在场景中对于计算机来说比对于人来说要困难得多。它不仅需要确定对象的适当位置,还需要预测目标位置处对象的外观比例、遮挡、姿势、形状等

幸运的是,ai人工智能AI)有望提供帮助。在NeurIPS 2018会议(上下文感知综合和匹配对象实例)的论文中,首尔国立大学,加利福尼亚大学,默塞德和谷歌AI的研究人员描述了一种学习在语义上将对象插入图像的系统。令人信服。

更实用的Googleai人工智能可以将对象插入图像中-而后网

在与场景语义匹配的图像中插入对象是一项具有挑战性且有趣的任务。研究人员写道,这项任务与许多实际应用密切相关,包括图像合成、ARVR内容编辑。这种对象插入模型可能潜在地促进许多图像编辑和场景解析应用。

它们的端到端框架由两个确定插入对象的模块组成,它应该是第二个确定它应该是什么样子的模块,使用Gans(GAN)或两个神经网络,试图将生成的样本与实际样本区分开来。由于系统同时对插入的图像进行建模以进行分发,因此这两个模块可以互操作并相互优化。

该论文的作者写道,这项工作的主要技术新颖之处在于它构建了一个端到端的可训练神经网络,可以从新物体的联合分布中对其可能的位置和形状进行采样。合成对象实例可以用作基于GAN的方法的输入,或者从现有数据集中检索最近所需的部分以生成新图像。

正如他们解释的那样,在这种情况下,生成器可以预测合理的位置,生成尺度为、的姿势和形状的语义一致的对象蒙版,尤其是对象在场景中的分布方式,以及如何自然地插入对象。所以它似乎是场景的一部分。随着时间的推移,在训练过程中,AI系统根据场景学习不同的对象类别分布。例如,在城市街道的图像中,人们往往在人行道上,并且汽车通常在路上。

测试中,研究人员通过插入形状逼真的对象使模型比基线更好。当YOLOv3图像识别器应用于由ai人工智能生成的图像时,可以在0.79处调用检测到的合成目标。更有说服力的是,在对亚马逊(Mechanical Turk员工调查中,43%的人认为ai人工智能生成的对象是真实的。研究人员写道,这表明我们的方法能够执行对象组合和插入任务。因为我们的方法被建模在何处以及如何组合,所以它可以用于解决其他计算机视觉问题。未来有趣的事情之一是处理对象之间的遮挡。