论文outline怎么写(【论文精读】Tune-A-Video: One-Shot Tuning of Image Diffusion Models for Text-to-Video Generation)
导读:video-to-video 修改文本内容,生成新的视频。...
video-to-video
修改文本内容 ,生成新的视频 。
Abstract
由于T2I的成功 ,近日T2V的方法在大量的T2I的数据集中加入fine-turning.我们试图给出一个One-Shot Video Generation 。
1 、产生图像与动词对齐 。
2 、扩展文本到图像的模型 ,同时生产多张图片 。
作者提出Turn a video的方法 ,高效的fine-turn翻译成2D的扩散模型 ,通过文本生成视频 。改变元素 、背景或者风格的转换 。Introduction
让模型具有One-Shot的能力 。
原模型:缺乏连贯性 ,动作 、背景不连贯 。不符合对视频生成的要求 。
新模型:增加了Self-Attention(由空间相似性驱动 ,而不是像素的位置) ,增加了连贯性 ,主体一致性预训练文本-视频,由3×3扩展到1×3×3
具有结构相似性。寄存量呈平方式增加(过大) ,
提出Sparse-Causal Attention(SC-Attn)
对于因果Attentiion的变形 ,稀疏版本 。
该方法可以回归生成任意长度的视频帧 。
Sparse-Causal是Causal的稀疏版上:膨胀成文本到视频
下:新的文本,生成对应视频(动作不变)
pipeline
diffusion U-NET模型 ,下方attention模型 ,修改为Sparse-Causal Attention。concat
投影到矩阵 。
Method
Diffusion Models
Latent Diffusion Model
One-shot Video Generation
生成相同语义信息 。
无法生成连续的动作动作词语需要一致
Our Tune-A-Video
“膨胀 ”
2D的convolution3×3
1×3×3(frame层转移到batch,依然是2D)attention block
①a spatial self-attention
②a cross attentionOne-Shot Turning
KEY和VALUE由前一帧推断出
应用场景:元素修改 ,背景替换 ,风格迁移
Experiment
消融实验
声明:本站所有文章 ,如无特殊说明或标注 ,均为本站原创发布。任何个人或组织 ,在未征得本站同意时 ,禁止复制 、盗用 、采集 、发布本站内容到任何网站 、书籍等各类媒体平台 。如若本站内容侵犯了原著者的合法权益 ,可联系我们进行处理 。
创心域SEO版权声明:以上内容作者已申请原创保护,未经允许不得转载,侵权必究!授权事宜、对本内容有异议或投诉,敬请联系网站管理员,我们将尽快回复您,谢谢合作!