机器之心报道
编辑:小舟、陈萍
这么美的照片竟然不是出自摄影师之手?!在 2019 年举办的 GTC 大会上 , 英伟达展示了一款新的交互应用 GauGAN:利用生成对抗网络(GAN)将分割图转换为栩栩如生的图像 。
时隔 2 年 , 英伟达官方推出了 GauGAN 的继任者 GauGAN2 , 允许用户创建不存在的逼真风景图像 。 GauGAN2 将分割映射、修复和文本到图像生成等技术结合在一个工具中 , 旨在输入文字和简单的绘图就能创建逼真的图像 。
英伟达表示:「与类似的图像生成模型相比 , GauGAN2 的神经网络能够产生更多种类和更高质量的图像 。 」用户无需绘制想象场景的每个元素 , 只需输入一个简短的短语即可快速生成图像的关键特征和主题 。
例如输入「海浪打在岩石上」 , 模型会根据生成的内容逐渐进行相应的调整 , 以生成与描述匹配的逼真图像 。
文章图片
目前 GauGAN2 还在研发阶段 , 但英伟达已为用户提供了一个 demo 地址 , 可在线试玩 。
试玩地址:https://www.nvidia.com/en-us/research/ai-demos/
简单输入几个关键词就能生成想要的风景图 , 看起来非常有趣 。
GauGAN2 的生成模式
GauGAN2 现在有几种模式 , 可以从不同的输入生成逼真的图像 。
模式 1:输入简笔画 。
文章图片
模式 2:输入文本 。
文章图片
这种输入文本生成匹配图像的模式也是 GauGAN2 主要的创新 , 生成的图像会根据逐渐输入的文本不断发生变化 , 最终生成和文本匹配最佳的图像 。
例如在下图的示例中 , 文本首先输入「sunshine(阳光)」 , 生成的图像中就只出现了一个太阳;之后继续输入「a tall tree(高树)」 , 图像中就出现了树(且为顶部树枝 , 匹配「高树」);最后 , 输入的全部文本是「sunshine in a tall tree forest」 , 意为「透过森林的阳光」 , GauGAN2 最终生成的图像与之相匹配:
文章图片
模式 3:输入图像并编辑部分内容 。
例如 , 抹掉想要移除的内容 , 在生成的图像中会保留剩余的部分 , 并自动补全出多种新的完整图像:
文章图片
此外 , 第一版 GauGAN 的涂鸦模式在 GauGAN2 也同样适用 。
文章图片
上述几种模式也可以混合叠加使用 , 例如在用涂鸦绘画等生成图像后 , 输入文本进行相应的修改 , 下图就生成了一座阳光下的「空中楼阁」:
文章图片
从文本生成图像 , 如何实现?
从 2019 年开始 , 英伟达开始改进 GauGAN 系统 , 该系统由超过一百万个公共 Flickr 图像训练而成 。 与 GauGAN 一样 , GauGAN2 可以理解雪、树、水、花、灌木、丘陵和山脉等物体之间的关系 , 例如降水类型随季节变化的事实 。
GauGAN2 作为生成对抗网络 (GAN) 的一种变体 , 由生成器和鉴别器组成 。 生成器用于获取样本 , 例如获取与文本配对的图像 , 并预测可能与图片中元素(例如山水、树木)对应的数据 。 生成器试图通过「欺骗」鉴别器来进行训练 , 鉴别器则用于评估预测结果是否真实 。 虽然 GAN 的转换最初质量很差 , 但它随着鉴别器的反馈而不断改进 。
特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
