一个模型通杀八大视觉任务，一句话产生图像视频

发布时间：2021-11-29 12:57 所属栏目：18 来源：互联网

导读：有这样一个模型。它可以做到一句话生成视频：不仅零样本就能搞定，性能还直达SOTA。它的名字，叫NWA（女娲）。女娲女娲，神通广大，正如其名，一句话生成视频只是这个模型的技能之一。除此之外，一句话生成图片，草图生成图像、视频，图像补全，视频预测

有这样一个模型。

它可以做到一句话生成视频：

不仅零样本就能搞定，性能还直达SOTA。

它的名字，叫“NüWA”（女娲）。

“女娲女娲，神通广大”，正如其名，一句话生成视频只是这个模型的技能之一。

除此之外，一句话生成图片，草图生成图像、视频，图像补全，视频预测，图像编辑、视频编辑——
一共八种视觉任务，它其实全部都能搞定。

完全是一位不折不扣的“全能型选手”。

它，就是由微软亚研院和北大联合打造的一个多模态预训练模型，在首届微软峰会上亮相。

目前，在推特上已“小有热度”。

八项全能“女娲”，单拎出来也不差
所以这个全能型选手究竟表现如何？

直接与SOTA模型对比，来看看“她”在各项任务上的表现。

在文本生成图像中，不得不说，即使“女娲”的FID-0得分不及XMC-GAN，但在实际效果中，“女娲”生成的图肉眼可见的更好，清晰又逼真。
文本到视频中，“女娲”每一项指标都获得了第一名，从逐帧图片来看，差距很明显。

在视频预测中，所有模型使用64x64的分辨率，Cond.代表供预测的帧数。

尽管只有1帧，“女娲”也将FVD得分从94±2降到86.9。

草图转图像时，与SOTA模型相比，“女娲”生成的卡车都更逼真。

而在零样本的图像补全任务中，“女娲”拥有更丰富的“想象力”。

并且，它的另一个优势是推理速度，几乎50秒就可以生成一个图像；而Paint By Word在推理过程中需要额外的训练，大约需要300秒才能收敛。

（编辑：ASP站长网）