首页IT科技论文outline怎么写(【论文精读】Tune-A-Video: One-Shot Tuning of Image Diffusion Models for Text-to-Video Generation)

论文outline怎么写(【论文精读】Tune-A-Video: One-Shot Tuning of Image Diffusion Models for Text-to-Video Generation)

时间2025-05-05 16:00:43分类IT科技浏览5241
导读:video-to-video 修改文本内容,生成新的视频。...

video-to-video

修改文本内容           ,生成新的视频           。

Abstract

由于T2I的成功                ,近日T2V的方法在大量的T2I的数据集中加入fine-turning.我们试图给出一个One-Shot Video Generation                。

1           、产生图像与动词对齐     。

2                、扩展文本到图像的模型     ,同时生产多张图片      。

作者提出Turn a video的方法      ,高效的fine-turn翻译成2D的扩散模型                ,通过文本生成视频                。改变元素     、背景或者风格的转换           。

Introduction

让模型具有One-Shot的能力      。

原模型:缺乏连贯性           ,动作      、背景不连贯                。不符合对视频生成的要求           。

新模型:增加了Self-Attention(由空间相似性驱动      ,而不是像素的位置)                ,增加了连贯性           ,主体一致性

预训练文本-视频,由3×3扩展到1×3×3

具有结构相似性。

寄存量呈平方式增加(过大)                ,

提出Sparse-Causal Attention(SC-Attn)

对于因果Attentiion的变形                ,稀疏版本                。

该方法可以回归生成任意长度的视频帧                。

Sparse-Causal是Causal的稀疏版

上:膨胀成文本到视频

下:新的文本,生成对应视频(动作不变)

pipeline

diffusion U-NET模型           ,下方attention模型                ,修改为Sparse-Causal Attention。

concat

投影到矩阵           。

Method

Diffusion Models

Latent Diffusion Model

One-shot Video Generation

生成相同语义信息                。

无法生成连续的动作

动作词语需要一致

Our Tune-A-Video

“膨胀           ”

2D的convolution

3×3

1×3×3(frame层转移到batch     ,依然是2D)

attention block

①a spatial self-attention

②a cross attention

One-Shot Turning

KEY和VALUE由前一帧推断出

应用场景:元素修改           ,背景替换                ,风格迁移

Experiment

消融实验

声明:本站所有文章     ,如无特殊说明或标注      ,均为本站原创发布     。任何个人或组织                ,在未征得本站同意时           ,禁止复制                、盗用           、采集      、发布本站内容到任何网站                、书籍等各类媒体平台           。如若本站内容侵犯了原著者的合法权益      ,可联系我们进行处理                。

创心域SEO版权声明:以上内容作者已申请原创保护,未经允许不得转载,侵权必究!授权事宜、对本内容有异议或投诉,敬请联系网站管理员,我们将尽快回复您,谢谢合作!

展开全文READ MORE
一张诺亚sr卡值多少钱(YOLOv5/v8改进主干GhostNetV2系列:首发结合最新NIPS2022华为诺亚的GhostNetV2 架构:引入长距离注意力机制增强廉价操作,构建更强端侧轻量型骨干,打造高效轻量级检测器)