JDB电子可组合扩散模子主打Any-to-Any天生：文本、图像、视频、音频全都行

企业动态: - 企业新闻; - 行业知识; - 媒体报道; - 常见问题

推荐产品

西餐桌椅组合 cz030
再去看一下

西餐桌椅组合 cz029
再去看一下

西餐桌椅组合 cz028
再去看一下

西餐桌椅组合 cz027
再去看一下

西餐桌椅组合 cz026
再去看一下

JDB电子可组合扩散模子主打Any-to-Any天生：文本、图像、视频、音频全都行

来源：网络 / 发布时间：2023-05-25 07:45:42 / 浏览次数：

　　开元棋官网入口给定一句话，然后让你设思这句话正在实际场景中的形状，对待人类来说这项做事过于简略，例如「一辆进站的火车」JDB电子可组合扩散模子主打Any-to-Any天生：文本、图像、视频、音频全都行，人类能够举行天马行空的设思火车进站时的形状，但对模子来说，这可不是一件容易的事，涉及模态的转换，模子需求懂得这句话的寓意，然后凭据这句话天生应景的视频、音频，难度照样相当大的。

　　现正在，来自北卡罗来纳大学教堂山分校、微软的考虑者提出的可组合扩散（Composable Diffusion，简称 CoDi）模子很好的办理了这个题目。例如，前面提到的「一辆进站的火车」JDB电子，CoDi 凭据这句话天生的成就如下：

　　与现有的天生式人为智能体例分别，CoDi 能够并行天生多种模态，其输入不限于文本或图像等模态。

　　有目共见，跟着技巧的起色，大模子的技能限造曾经不只仅限度于一种模态的天生，而是从一种模态天生另一种模态正正在酿成实际，如咱们常见的文本到文本的天生，文本到图像的天生，以及文本到音频的天生。

　　然而，简单模态或一对一模态正在利用到实际寰宇中会受到束缚JDB电子，由于实际寰宇是多模态的，然而将多种模态串联正在沿道难度较大。人们殷切希望斥地出一种通盘而拥有多效力的模子，这种模子能够从一组输入条款中天生随意组合的模态，无缝地整合来自百般新闻源的新闻，从而竣工健壮的人机交互体验（比方，同时天生连贯的视频、音频和文本刻画）。

　　CoDi 即是为了竣工这一方针而举行的，能够说这是第一个或许同时管造和天生随意组合模态的模子。

　　考虑者表现 CoDi 不只能够从单模态到单模态的天生，还能够采纳多个条款输入，以及多模态撮合天生。举例来说，正在给定文本 prompt 的境况下天生同步的视频和音频；或者正在给定图像和音频 prompt 的境况下天生视频。

　　正在这个示例中，文本 prompt 大致为：油画，恐慌画风，craig mullins 风致。

　　除了文本 + 音频，CoDi 还能够以文本 + 图像举动输入，然后天生一张图片：

　　正在这个示例中，输入 prompt 为：花瓶里的花朵，静物画，Albert Williams 风致，以及一张图片咖啡桌。

　　除此以表，CoDi 还能以三种模态（文本 + 音频 + 图片）举动输入，天生适宜央求的图片。

　　接下来是揭示 CoDi 视频天生技能。给模子一句 prompt（坐正在咖啡桌旁吃东西）+ 熊猫图片，之后一只活矫健现的大熊猫就动了起来：

　　别的，CoDi 还能输入单个或多个 prompt，包含视频，图像，文本或音频，以天生多个对齐输出。

　　正在这个示例中，prompt 包含三部门（文本 + 图像 + 音频）：文本 prompt 为滑板上的泰迪熊，4k，高分别率咖啡桌。图像是一个旺盛的街道。语音输入为哗哗的雨声：

　　扩散模子（DM）是如许一类天生式模子，它们通过模仿新闻随年华的扩散来研习数据分散 p (x)。正在演练时期，随机噪声被迭代地增加到 x，同时模子研习对示例举行去噪。对待推理，扩散模子对从简略分散（如高斯分散）中采样的数据点举行去噪。潜正在扩散（LDM）研习对应于 x 的潜正在变量 z 的分散。通过消重数据维数来明显消重谋划本钱。

　　为了使己方的模子或许以任何 input/prompt 模态的组合举行调度，考虑者对齐文本、图像、视频和音频的 prompt 编码器（分袂用 C_t、C_i、C_v 和 C_a 表现），畴昔自任何模态的输入映照到统一个空间。然后通过对每个模态的表现举行插值来竣工多模态调度。通过对齐嵌入的简略加权插值，他们欺骗单条款（即仅有一个输入）演练的模子来奉行零样本多条款（即有多个输入）。全部经过如下图 2 (a)(2) 所示。

　　但是以组合办法同时对四种 prompt 编码器举行优化拥有极端大的谋划量，于是需求 O (n^2) 对。别的对待某些双模态，对齐精良的配对数据集有限或弗成用，比方图像音频对。

　　为分析决这些题目，考虑者提出了一种简略有用的设施「桥接对齐（Bridging Alignment）」，以高效地对齐编码器。如下图 2 (a)(1) 所示，他们采用文本模态举动「桥接」模态，由于该模态广博存正在于配对数据中咖啡桌，比方文本图像对、文本视频对和文本音频对。考虑者从预演练文本图像配对编码器 CLIP 先河，然后行使比较研习正在音频文本和视频文本配对数据集上演练音频和视频 prompt 编码器，同时冻结文本和图像编码器权重。

　　如斯一来JDB电子，一齐四种模态正在特色空间中对齐。CoDi 能够有用地欺骗和组合任何模态组合中的互补新闻，以天生更确凿和通盘的输出。天生质地的凹凸不受 prompt 模态数主意影响。考虑者无间行使桥接对齐来对齐拥有分别模态的 LDM 的潜正在空间，以竣工撮合多模态天生。

　　演练一个端到端的 anything-to-anything 模子需求通常研习分此表数据资源，而且需求保留一齐合成流的天生质地。为了应对这些离间，CoDi 被计划为可组合和集成的，应允独立构修特定于简单模态的模子，之后竣工顺手集成。简直地，考虑者起初独立演练图像、视频、音频和文本 LDM，然后这些扩散模子通过一种新机造「潜正在对齐」来有用地研习跨模态的撮合多模态天生。

　　先看图像扩散模子。图像 LDM 遵命与 Stable Diffusion 一致的机合，并用一致的权重举行初始化。重用该权重将正在大型高质舆图像数据集上演练的 Stable Diffusion 的学问和超高天生保真度迁徙到 CoDi。

　　再看视频扩散模子。为了对视频年华属性举行修模的同时保留视频天生质地，考虑者通过扩展拥有年华模块的图像扩散器来构修视频扩散器。简直地，他们正在残差块之前插入伪年华属意力。但是考虑者以为伪年华属意力只可将像素（高度和宽度维数）展平为批维数来使视频帧正在全体限造内相互体贴，从而导致限造像素之间跨帧交互的缺失。

　　接着是音频扩散模子。为了正在撮合天生中竣工矫健的跨模态属意力，音频扩散器正在计划时拥有与视觉扩散器相通的架构，此中梅尔频谱图能够天然地被视为拥有 1 个通道的图像。考虑者行使 VAE 编码器将音频的梅尔频谱图编码为压缩的潜正在空间。正在音频合成中，VAW 解码器将潜正在变量映照到梅尔频谱图，而且声码器从梅尔频谱图天生音频样本咖啡桌。考虑者行使了 [33] 中的音频 VAE 和 [27] 的声码器。

　　末了是文本扩散模子。文本 LDM 中的 VAE 是 OPTIMUS [29]，它的编解码器分袂是 [9] 和 GPT-2 [39]。对待去噪 UNet，与图像扩散分此表是，残差块中的 2D 卷积被 1D 卷积代替。

　　末了一步是正在撮合天生中启用扩散流之间的交叉属意力，即同时天生两种或多种模态。这通过向 UNet ϵ_θ 增加跨模态属意力子层来竣工，详见图 2 (b)(2)JDB电子。

　　别的正在图 2 (b)(3) 中，考虑者正在演练撮合天生时也遵命了与「桥接对齐」仿佛的计划JDB电子，即（1）起初演练图像和文本扩散器中的交叉属意力权重以及它们正在文本图像配对数据上的境况编码器 V。（2）冻结文本扩散器的权重，并正在文本音频配对数据上演练境况编码器和音频扩散器的交叉属意力权重。（3）冻结音频扩散器及其境况编码器，并正在音频视频配对数据上演练视频模态的撮合天生。

　　从结果来看，纵然只接收了三个配对撮合天生做事（文本 + 音频、文本 + 图像和视频 + 音频）的演练，但 CoDi 或许同时天生演练中未见过的百般模态组合，比方下图 5 中的撮合图像 - 文本 - 音频天生。

　　CoDi 正在音频字幕和音频天生方面竣工了新 SOTA，如表 4 和表 6 所示。

　　正在图像和视频天生方面，CoDi 的涌现与最先辈的技巧相媲美，如表 2 和表 3 所示。

　　如表 8 所示，CoDi 正在给定的输入模态分组中竣工了高质舆图像天生。别的，表 9 解说，CoDi 正在给定百般输入模态组的境况下与真值相通。

　　原题目：《可组合扩散模子主打Any-to-Any天生：文本、图像、视频、音频全都行》

　　本文为彭湃号作家或机构正在彭湃信息上传并公布，仅代表该作家或机构概念，不代表彭湃信息的概念或态度，彭湃信息仅供应新闻公布平台。申请彭湃号请用电脑拜望。

上一篇：JDB电子为上影节邀约国际巨星76岁靳羽西的“友人圈”有多广下一篇：JDB电子这几款咖啡桌会让你的生存变的更有气味