视频也可以用扩散数学模型来生成了，效果很能打：新SOTA已达成 | 谷歌

2023-02-23 数码

丰色先于凹非寺

量子位 | 公众号 QbitAI

传播数学方法近期是真的有点燃。

前有OpenAI用它打败霸榜多年的GAN，今日谷歌又紧随其后，设想了一个录像带传播数学方法。

和投影聚合一样，曾在想法，它竟就展现出有了优异的效率。

比如输入“fireworks”，就能聚合这样的视觉效果：

满屏烟花盛放，观测者似乎简直可以说是以假乱真了。

为了让聚合录像带愈来愈长、精度愈来愈高，作者还在这个传播数学方法当中引入了一种全新的抽样方规。

再度，该数学方法在无必需录像带聚合护航当中达到全新SOTA。

两兄弟来看。

由投影传播数学方法扩大而成

这个传播录像带数学方法，由规格的投影传播数学方法UNet扩大而成。

UNet是一种信息处理的系统，分为自由空间下抽样入口和上抽样入口，通过残差连接。

该网络服务由多层2D正弦残差块构建而成，每个正弦块末尾跟着一个自由空间忽略块。

通过一般来说帧数的块，以及在自由空间和间隔时间上裂解的3D U-Net，就可以将它扩大为录像带数学方法。

具体来说：

先将每个二维正弦愈来愈改为三维正弦（space-only），比如将3x3正弦愈来愈改为1x3x3正弦（第一轴向（axis）查找录像带帧，第二轴向和第三轴向查找自由空间高度和宽度）。

每个自由空间忽略块当中的警觉仍然专心于自由空间也就是说。

然后，在每个自由空间忽略块此后，插入一个间隔时间忽略块；该间隔时间忽略块在第一个轴向上制订警觉，并将自由空间轴向认作批处理轴向（batch axes）。

众所周知，像这样在录像带Transformer当中分对时空警觉来进行裂解，亦会让计算效率愈来愈高。

由此一来，也就能在录像带和投影上对数学方法来进行联合体能训练，而这种联合体能训练对愈来愈高样品密度很有借助。

此外，为了聚合愈来愈长和愈来愈高精度的录像带，作者还引入了一种新的调整高效率：反向规。

它主要修改数学方法的抽样过程，用到基于反向的构建来改善去噪统计数据的必需巨大损失，将数学方法自重归扩大到愈来愈多的间隔时间步（timestep）和愈来愈高的精度。

分析报告无必需和自然语言必需下的聚合视觉效果

对于无必需录像带聚合，体能训练和分析报告在既有加权上来进行。

该数学方法再度获得了略低于的FID最高分和IS最高分，大大超越了当年的SOTA数学方法。

对于自然语言必需下的录像带聚合，作者在1000万个片尾录像带的统计数据集上来进行了体能训练，自由空间精度为64x64px；

在此之前，录像带聚合数学方法采用的都是各种GAN、VAE，以及基于流的数学方法以及自重归数学方法。

所以这也是他们首次报告传播数学方法根据自然语言聚合录像带的结果。

下图则显示了无分类器便是对该数学方法聚合密度的负面影响：与其他非传播数学方法明确，添纳便是亦会增纳每个单独投影的保真度（右为该录像带传播数学方法，可以看到它的图片愈来愈纳真实和模糊不清）。

△图片为随机截取的录像带帧

最后，作者也解析发现，他们所设想的反向规在生蓬勃发展录像带时，无论如何比当年的方规愈来愈具自然，也就愈来愈能保证聚合的样品与自然语言来进行谈判明确。

△右为反向规

论文地址：

工程项目官网：

usion.github.io/

— 再来—

「计算机」、「智能汽车」微信社群推荐你投身！

欢迎重视计算机、智能汽车的小伙伴们投身我们，与AI近来交流、传授，不错过近期行业发展&高效率重大突破。

ps.纳相识请下回备注您的姓氏-公司-行政官员哦~

点这里 👇重视我，回想标星哦～

一键三连「体会」、「点赞」和「在看」

科技前沿重大突破日日重逢~