File size: 9,078 Bytes
a681892 6012b96 a681892 5b1bc2f a681892 5b1bc2f a681892 6012b96 a681892 5b1bc2f |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215 216 217 218 219 220 221 222 223 224 225 226 227 228 229 230 231 232 233 234 235 236 237 238 239 240 241 242 243 244 245 246 247 248 249 250 251 252 253 254 255 256 257 258 259 260 261 262 263 264 265 266 267 268 269 270 271 272 273 274 275 276 |
# Video-BLADE: Block-Sparse Attention Meets Step Distillation for Efficient Video Generation
<div align="center">
[📖 Paper](https://arxiv.org/abs/2508.10774) | [🚀 Homepage](http://ziplab.co/BLADE-Homepage/) | [💾 Models](https://huggingface.co/GYP666/VIDEO-BLADE)
</div>
Video-BLADE是一个无需视频数据训练的高效视频生成框架,通过联合训练自适应稀疏注意力和步数蒸馏技术,实现了视频生成模型的显著加速。该项目实现了块稀疏注意力机制与步数蒸馏技术的结合,在保持生成质量的同时将推理步数从50步降低到8步。
## 📢 News
- **[2025-08]** 🎉 Video-BLADE代码和预训练模型发布!
- **[2025-08]** 📝 支持CogVideoX-5B和WanX-1.3B两种主流视频生成模型
- **[2025-08]** ⚡ 实现8步高质量视频生成,相比50步baseline显著提速
## ✨ 主要特性
- 🚀 **高效推理**: 将推理步数从50步减少到8步,保持生成质量
- 🎯 **自适应稀疏注意力**: 块稀疏注意力机制,显著降低计算复杂度
- 📈 **步数蒸馏**: TDM(Trajectory Distillation Method)技术,无需视频数据即可训练
- 🎮 **即插即用**: 支持CogVideoX-5B和WanX-1.3B模型,无需修改原始架构
## 🛠️ 环境配置
### 系统要求
- Python >= 3.11 (建议)
- CUDA >= 11.6 (建议)
- GPU内存 >= 24GB (推理)
- GPU内存 >= 80GB (训练)
### 安装步骤
1. **克隆仓库**
```bash
git clone https://github.com/Tacossp/VIDEO-BLADE
cd VIDEO-BLADE
```
2. **安装依赖包**
```bash
# 使用uv安装依赖 (推荐)
uv pip install -r requirements.txt
# 或使用pip
pip install -r requirements.txt
```
3. **编译Block-Sparse-Attention库**
```bash
git clone https://github.com/mit-han-lab/Block-Sparse-Attention.git
cd Block-Sparse-Attention
pip install packaging
pip install ninja
python setup.py install
cd ..
```
## 📥 模型权重下载
### 基础模型权重
请下载以下基础模型权重并放置在指定目录:
1. **CogVideoX-5B模型**
```bash
# 从Hugging Face下载
git lfs install
git clone https://huggingface.co/zai-org/CogVideoX-5b cogvideox/CogVideoX-5b
```
2. **WanX-1.3B模型**
```bash
# 从Hugging Face下载
git clone https://huggingface.co/Wan-AI/Wan2.1-T2V-1.3B-Diffusers wanx/wan1.3b
```
### 预训练的Video-BLADE权重
我们提供了已经训练好的Video-BLADE权重:
```bash
# 下载预训练权重
git clone https://huggingface.co/GYP666/VIDEO-BLADE pretrained_weights
```
### 权重目录结构
确保您的权重目录结构如下:
```
VIDEO-BLADE/
├── cogvideox/
│ └── CogVideoX-5b/ # CogVideoX基础模型权重
├── wanx/
│ └── wan1.3b/ # WanX基础模型权重
└── pretrained_weights/ # Video-BLADE预训练权重
├── BLADE_cogvideox_weight/
└── BLADe_wanx_weight/
```
## 🚀 快速开始 - 推理使用
### CogVideoX推理
```bash
cd cogvideox
python train/inference.py \
--lora_path ../pretrained_weights/
cogvideox_checkpoints/your_checkpoint \
--gpu 0
```
**参数说明**:
- `--lora_path`: LoRA权重文件路径
- `--gpu`: 使用的GPU设备ID (默认: 0)
**输出**: 生成的视频将保存在 `cogvideox/outputs/inference/` 目录
### WanX推理
```bash
cd wanx
python train/inference.py \
--lora_path ../pretrained_weights/wanx_checkpoints/your_checkpoint \
--gpu 0
```
**输出**: 生成的视频将保存在 `wanx/outputs/` 目录
## 🔧 训练流程
### 第一步: Prompts预处理
在训练前,需要预处理提示词生成embeddings:
#### CogVideoX预处理
```bash
cd utils
python process_prompts_cogvideox.py \
--input_file your_prompts.txt \
--output_dir ../cogvideox/prompts \
--model_path ../cogvideox/CogVideoX-5b \
--batch_size 32 \
--save_separate
```
**参数说明**:
- `--input_file`: 包含prompts的txt文件,每行一个prompt
- `--output_dir`: 输出embeddings的目录
- `--model_path`: CogVideoX模型路径
- `--batch_size`: 处理批次大小
- `--save_separate`: 是否将每个embedding单独保存
#### WanX预处理
```bash
cd utils
python process_prompts_wanx.py
```
此脚本会自动处理 `utils/all_dimension_aug_wanx.txt` 中的prompts并生成相应的embeddings。
### 第二步: 启动训练
#### CogVideoX训练
```bash
cd cogvideox
bash train_tdm_1.sh
```
**核心训练参数**:
```bash
#如果不是8卡训练需要修改CUDA_VISIBLE_DEVICES和config.yaml的num_processes
CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 accelerate launch \
--config_file train/config.yaml \
train/train_cogvideo_tdm.py \
--pretrained_model_name_or_path CogVideoX-5b \ # 基础模型路径
--mixed_precision bf16 \ # 混合精度训练,减少显存使用
--train_batch_size 5 \ # 训练批次大小
--gradient_accumulation_steps 4 \ # 梯度累积步数
--learning_rate 1e-4 \ # student学习率
--learning_rate_g 1e-4 \
--learning_rate_fake 5e-4 \ # fake model学习率
--lambda_reg 0.5 \ # 正则化权重
--k_step 8 \ # 蒸馏目标步数
--cfg 3.5 \ # CFG引导强度
--eta 0.9 \ # ETA参数
--use_sparsity true \ # 启用稀疏注意力
--rank 64 \
--lora_alpha 64 \ # LoRA配置
--max_train_steps 300 \ # 最大训练步数
--checkpointing_steps 15 \ # 检查点保存间隔
--gradient_checkpointing \ # 梯度检查点,节省显存
--enable_slicing \
--enable_tiling \ # VAE内存优化
```
#### WanX训练
```bash
cd wanx
bash train_wanx_tdm.sh
```
## 📊 项目结构
```
VIDEO-BLADE/
├── README.md # 项目说明文档
├── requirements.txt # Python依赖列表
│
├── cogvideox/ # CogVideoX相关代码
│ ├── CogVideoX-5b/ # 基础模型权重目录
│ ├── train/ # 训练脚本
│ │ ├── inference.py # 推理脚本
│ │ ├── train_cogvideo_tdm.py # 训练脚本
│ │ ├── train_tdm_1.sh # 训练启动脚本
│ │ ├── modify_cogvideo.py # 模型修改脚本
│ │ └── config.yaml # 训练配置文件
│ ├── prompts/ # 预处理的prompts和embeddings
│ └── outputs/ # 训练和推理输出
│
├── wanx/ # WanX相关代码
│ ├── wan1.3b/ # 基础模型权重目录
│ ├── train/ # 训练脚本
│ │ ├── inference.py # 推理脚本
│ │ ├── train_wanx_tdm.py # 训练脚本
│ │ ├── train_wanx_tdm.sh # 训练启动脚本
│ │ └── modify_wan.py # 模型修改脚本
│ ├── prompts/ # 预处理的prompts和embeddings
│ └── outputs/ # 训练和推理输出
│
├── utils/ # 工具脚本
│ ├── process_prompts_cogvideox.py # CogVideoX数据预处理
│ ├── process_prompts_wanx.py # WanX数据预处理
│ └── all_dimension_aug_wanx.txt # WanX训练prompts
│
├── Block-Sparse-Attention/ # 稀疏注意力库
│ ├── setup.py # 编译安装脚本
│ ├── block_sparse_attn/ # 核心库代码
│ └── README.md # 库使用说明
│
└── ds_config.json # DeepSpeed配置文件
```
## 🤝 致谢
- [FlashAttention](https://github.com/Dao-AILab/flash-attention),[Block-Sparse-Attention](https://github.com/mit-han-lab/Block-Sparse-Attention): 稀疏注意力实现基础
- [CogVideoX](https://github.com/THUDM/CogVideo),[Wan2.1](https://github.com/Wan-Video/Wan2.1): 模型支持
- [TDM](https://github.com/Luo-Yihong/TDM):蒸馏实现基础
- [Diffusers](https://github.com/huggingface/diffusers): 扩散模型工具库
## 📄 引用
如果您在研究中使用了Video-BLADE,请引用我们的工作:
```bibtex
@misc{gu2025videobladeblocksparseattentionmeets,
title={Video-BLADE: Block-Sparse Attention Meets Step Distillation for Efficient Video Generation},
author={Youping Gu and Xiaolong Li and Yuhao Hu and Bohan Zhuang},
year={2025},
eprint={2508.10774},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2508.10774},
}
```
## 📧 联系方式
如有问题或建议,欢迎:
- Please contact Youping Gu (youpgu71@gmail.com) if you have any questions about this work.
- 提交issue: [Github issue](https://github.com/ziplab/VIDEO-BLADE/issues)
|