File size: 9,078 Bytes
a681892
 
 
 
6012b96
a681892
 
 
 
 
 
 
5b1bc2f
 
 
a681892
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
5b1bc2f
a681892
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
6012b96
 
 
 
 
 
 
 
a681892
 
 
 
 
 
 
5b1bc2f
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
# Video-BLADE: Block-Sparse Attention Meets Step Distillation for Efficient Video Generation

<div align="center">

[📖 Paper](https://arxiv.org/abs/2508.10774) |  [🚀 Homepage](http://ziplab.co/BLADE-Homepage/) | [💾 Models](https://huggingface.co/GYP666/VIDEO-BLADE)

</div>

Video-BLADE是一个无需视频数据训练的高效视频生成框架,通过联合训练自适应稀疏注意力和步数蒸馏技术,实现了视频生成模型的显著加速。该项目实现了块稀疏注意力机制与步数蒸馏技术的结合,在保持生成质量的同时将推理步数从50步降低到8步。

## 📢 News

- **[2025-08]** 🎉 Video-BLADE代码和预训练模型发布!
- **[2025-08]** 📝 支持CogVideoX-5B和WanX-1.3B两种主流视频生成模型
- **[2025-08]** ⚡ 实现8步高质量视频生成,相比50步baseline显著提速

## ✨ 主要特性

- 🚀 **高效推理**: 将推理步数从50步减少到8步,保持生成质量
- 🎯 **自适应稀疏注意力**: 块稀疏注意力机制,显著降低计算复杂度
- 📈 **步数蒸馏**: TDM(Trajectory Distillation Method)技术,无需视频数据即可训练
- 🎮 **即插即用**: 支持CogVideoX-5B和WanX-1.3B模型,无需修改原始架构

## 🛠️ 环境配置

### 系统要求
- Python >= 3.11 (建议)
- CUDA >= 11.6 (建议)
- GPU内存 >= 24GB (推理)
- GPU内存 >= 80GB (训练)


### 安装步骤

1. **克隆仓库**
```bash
git clone https://github.com/Tacossp/VIDEO-BLADE
cd VIDEO-BLADE
```

2. **安装依赖包**
```bash
# 使用uv安装依赖 (推荐)
uv pip install -r requirements.txt

# 或使用pip
pip install -r requirements.txt
```

3. **编译Block-Sparse-Attention库**
```bash
git clone https://github.com/mit-han-lab/Block-Sparse-Attention.git
cd Block-Sparse-Attention
pip install packaging
pip install ninja
python setup.py install
cd ..
```

## 📥 模型权重下载

### 基础模型权重

请下载以下基础模型权重并放置在指定目录:

1. **CogVideoX-5B模型**
```bash
# 从Hugging Face下载
git lfs install
git clone https://huggingface.co/zai-org/CogVideoX-5b cogvideox/CogVideoX-5b
```

2. **WanX-1.3B模型**
```bash
# 从Hugging Face下载
git clone https://huggingface.co/Wan-AI/Wan2.1-T2V-1.3B-Diffusers wanx/wan1.3b
```

### 预训练的Video-BLADE权重

我们提供了已经训练好的Video-BLADE权重:

```bash
# 下载预训练权重
git clone https://huggingface.co/GYP666/VIDEO-BLADE pretrained_weights
```

### 权重目录结构

确保您的权重目录结构如下:
```
VIDEO-BLADE/
├── cogvideox/
│   └── CogVideoX-5b/           # CogVideoX基础模型权重
├── wanx/
│   └── wan1.3b/               # WanX基础模型权重
└── pretrained_weights/         # Video-BLADE预训练权重
    ├── BLADE_cogvideox_weight/
    └── BLADe_wanx_weight/
```

## 🚀 快速开始 - 推理使用

### CogVideoX推理

```bash
cd cogvideox
python train/inference.py \
    --lora_path ../pretrained_weights/ 
    cogvideox_checkpoints/your_checkpoint \
    --gpu 0
```

**参数说明**:
- `--lora_path`: LoRA权重文件路径
- `--gpu`: 使用的GPU设备ID (默认: 0)

**输出**: 生成的视频将保存在 `cogvideox/outputs/inference/` 目录

### WanX推理

```bash
cd wanx
python train/inference.py \
    --lora_path ../pretrained_weights/wanx_checkpoints/your_checkpoint \
    --gpu 0
```

**输出**: 生成的视频将保存在 `wanx/outputs/` 目录

## 🔧 训练流程

### 第一步: Prompts预处理

在训练前,需要预处理提示词生成embeddings:

#### CogVideoX预处理
```bash
cd utils
python process_prompts_cogvideox.py \
    --input_file your_prompts.txt \
    --output_dir ../cogvideox/prompts \
    --model_path ../cogvideox/CogVideoX-5b \
    --batch_size 32 \
    --save_separate
```

**参数说明**:
- `--input_file`: 包含prompts的txt文件,每行一个prompt
- `--output_dir`: 输出embeddings的目录
- `--model_path`: CogVideoX模型路径
- `--batch_size`: 处理批次大小
- `--save_separate`: 是否将每个embedding单独保存

#### WanX预处理
```bash
cd utils
python process_prompts_wanx.py
```

此脚本会自动处理 `utils/all_dimension_aug_wanx.txt` 中的prompts并生成相应的embeddings。

### 第二步: 启动训练

#### CogVideoX训练

```bash
cd cogvideox
bash train_tdm_1.sh
```

**核心训练参数**:
```bash
#如果不是8卡训练需要修改CUDA_VISIBLE_DEVICES和config.yaml的num_processes
CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 accelerate launch \
    --config_file train/config.yaml \
    train/train_cogvideo_tdm.py \
    --pretrained_model_name_or_path CogVideoX-5b \        # 基础模型路径
    --mixed_precision bf16 \                              # 混合精度训练,减少显存使用
    --train_batch_size 5 \                                # 训练批次大小
    --gradient_accumulation_steps 4 \                     # 梯度累积步数
    --learning_rate 1e-4 \                                # student学习率
    --learning_rate_g 1e-4 \                              
    --learning_rate_fake 5e-4 \                           # fake model学习率
    --lambda_reg 0.5 \                                    # 正则化权重
    --k_step 8 \                                          # 蒸馏目标步数
    --cfg 3.5 \                                           # CFG引导强度
    --eta 0.9 \                                           # ETA参数
    --use_sparsity true \                                 # 启用稀疏注意力
    --rank 64 \
    --lora_alpha 64 \                                     # LoRA配置
    --max_train_steps 300 \                               # 最大训练步数
    --checkpointing_steps 15 \                            # 检查点保存间隔
    --gradient_checkpointing \                            # 梯度检查点,节省显存
    --enable_slicing \
    --enable_tiling   \                                   # VAE内存优化
```

#### WanX训练

```bash
cd wanx
bash train_wanx_tdm.sh
```

## 📊 项目结构

```
VIDEO-BLADE/
├── README.md                   # 项目说明文档
├── requirements.txt           # Python依赖列表

├── cogvideox/                 # CogVideoX相关代码
│   ├── CogVideoX-5b/         # 基础模型权重目录
│   ├── train/                # 训练脚本
│   │   ├── inference.py      # 推理脚本
│   │   ├── train_cogvideo_tdm.py  # 训练脚本
│   │   ├── train_tdm_1.sh    # 训练启动脚本
│   │   ├── modify_cogvideo.py # 模型修改脚本
│   │   └── config.yaml       # 训练配置文件
│   ├── prompts/              # 预处理的prompts和embeddings
│   └── outputs/              # 训练和推理输出

├── wanx/                     # WanX相关代码  
│   ├── wan1.3b/             # 基础模型权重目录
│   ├── train/               # 训练脚本
│   │   ├── inference.py     # 推理脚本
│   │   ├── train_wanx_tdm.py # 训练脚本
│   │   ├── train_wanx_tdm.sh # 训练启动脚本
│   │   └── modify_wan.py    # 模型修改脚本
│   ├── prompts/             # 预处理的prompts和embeddings
│   └── outputs/             # 训练和推理输出

├── utils/                   # 工具脚本
│   ├── process_prompts_cogvideox.py  # CogVideoX数据预处理
│   ├── process_prompts_wanx.py       # WanX数据预处理
│   └── all_dimension_aug_wanx.txt    # WanX训练prompts

├── Block-Sparse-Attention/  # 稀疏注意力库
│   ├── setup.py            # 编译安装脚本
│   ├── block_sparse_attn/  # 核心库代码
│   └── README.md           # 库使用说明

└── ds_config.json          # DeepSpeed配置文件
```


## 🤝 致谢

- [FlashAttention](https://github.com/Dao-AILab/flash-attention),[Block-Sparse-Attention](https://github.com/mit-han-lab/Block-Sparse-Attention): 稀疏注意力实现基础
- [CogVideoX](https://github.com/THUDM/CogVideo),[Wan2.1](https://github.com/Wan-Video/Wan2.1): 模型支持
- [TDM](https://github.com/Luo-Yihong/TDM):蒸馏实现基础
- [Diffusers](https://github.com/huggingface/diffusers): 扩散模型工具库

## 📄 引用

如果您在研究中使用了Video-BLADE,请引用我们的工作:

```bibtex
@misc{gu2025videobladeblocksparseattentionmeets,
    title={Video-BLADE: Block-Sparse Attention Meets Step Distillation for Efficient Video Generation},
    author={Youping Gu and Xiaolong Li and Yuhao Hu and Bohan Zhuang},
    year={2025},
    eprint={2508.10774},
    archivePrefix={arXiv},
    primaryClass={cs.CV},
    url={https://arxiv.org/abs/2508.10774},
}
```

## 📧 联系方式

如有问题或建议,欢迎:
- Please contact Youping Gu (youpgu71@gmail.com) if you have any questions about this work.
- 提交issue: [Github issue](https://github.com/ziplab/VIDEO-BLADE/issues)