HunyuanOCR-ENGLISH

Running

App Files Files Community

aleclyu commited on 11 days ago

Commit

bdbf47f

1 Parent(s): e7257d2

debug zerogpu timeout error

Browse files

Files changed (1) hide show

app.py +70 -8

app.py CHANGED Viewed

@@ -15,6 +15,13 @@ import tempfile
 import hashlib
 import gc
@@ -60,6 +67,16 @@ def _load_model_processor(args):
         device_map="auto",  # 改回 auto，让 ZeroGPU 自动管理
         token=os.environ.get('HF_TOKEN')
     )
     processor = AutoProcessor.from_pretrained(args.checkpoint_path, use_fast=False, trust_remote_code=True)
     print(f"[INFO] 模型加载完成，当前设备: {next(model.parameters()).device}")
@@ -93,13 +110,26 @@ def _gc():
 def _launch_demo(args, model, processor):
     # 关键修复：移除 model 和 processor 参数，使用闭包访问
     # 增加 duration 到 120 秒，避免高峰期超时
     @spaces.GPU(duration=120)
     def call_local_model(messages):
         import time
         start_time = time.time()
         print(f"[DEBUG] ========== 开始推理 ==========")
         print(f"[DEBUG] CUDA available: {torch.cuda.is_available()}")
         if torch.cuda.is_available():
             print(f"[DEBUG] CUDA device count: {torch.cuda.device_count()}")
@@ -139,6 +169,19 @@ def _launch_demo(args, model, processor):
         image_inputs, video_inputs = process_vision_info(messages)
         print(f"[DEBUG] 图像处理完成，耗时: {time.time() - start_time:.2f}s")
         inputs = processor(
             text=texts,
             images=image_inputs,
@@ -146,9 +189,13 @@ def _launch_demo(args, model, processor):
             padding=True,
             return_tensors="pt",
         )
         # 确保输入在 GPU 上
         inputs = inputs.to('cuda' if torch.cuda.is_available() else 'cpu')
-        print(f"[DEBUG] 输入准备完成，耗时: {time.time() - start_time:.2f}s")
         print(f"[DEBUG] Input IDs shape: {inputs.input_ids.shape}")
         print(f"[DEBUG] Input device: {inputs.input_ids.device}")
         print(f"[DEBUG] Input sequence length: {inputs.input_ids.shape[1]}")
@@ -177,22 +224,37 @@ def _launch_demo(args, model, processor):
             return False
         with torch.no_grad():
-            print(f"[DEBUG] 调用 model.generate()...")
             try:
                 generated_ids = model.generate(
                     **inputs,
-                    max_new_tokens=max_new_tokens,
                     repetition_penalty=1.03,
-                    do_sample=False,
-                    stopping_criteria=None,  # 确保没有额外的停止条件
-                    pad_token_id=processor.tokenizer.pad_token_id,
-                    eos_token_id=processor.tokenizer.eos_token_id,
                 )
             except Exception as e:
                 print(f"[ERROR] 生成失败: {e}")
                 raise
-        print(f"[DEBUG] model.generate() 调用完成")
         gen_time = time.time() - gen_start
         print(f"[DEBUG] ========== 生成完成 ==========")

 import hashlib
 import gc
+# 关键优化：设置环境变量加速 transformers
+os.environ['TOKENIZERS_PARALLELISM'] = 'false'  # 避免tokenizer警告
+os.environ['TRANSFORMERS_NO_ADVISORY_WARNINGS'] = '1'
+# 禁用 PyTorch 的 JIT 融合优化（在某些情况下会导致首次运行极慢）
+# torch._C._jit_set_profiling_executor(False)
+# torch._C._jit_set_profiling_mode(False)
         device_map="auto",  # 改回 auto，让 ZeroGPU 自动管理
         token=os.environ.get('HF_TOKEN')
     )
+    # 关键：禁用梯度检查点（如果启用会导致极慢）
+    if hasattr(model, 'gradient_checkpointing_disable'):
+        model.gradient_checkpointing_disable()
+        print(f"[INFO] 梯度检查点已禁用")
+    # 设置为评估模式
+    model.eval()
+    print(f"[INFO] 模型设置为评估模式")
     processor = AutoProcessor.from_pretrained(args.checkpoint_path, use_fast=False, trust_remote_code=True)
     print(f"[INFO] 模型加载完成，当前设备: {next(model.parameters()).device}")
 def _launch_demo(args, model, processor):
+    # 全局变量用于跟踪是否是首次调用
+    first_call = [True]
     # 关键修复：移除 model 和 processor 参数，使用闭包访问
     # 增加 duration 到 120 秒，避免高峰期超时
     @spaces.GPU(duration=120)
     def call_local_model(messages):
         import time
+        import sys
         start_time = time.time()
+        if first_call[0]:
+            print(f"[INFO] ========== 这是首次推理调用 ==========")
+            first_call[0] = False
+        else:
+            print(f"[INFO] ========== 这是第 N 次推理调用 ==========")
         print(f"[DEBUG] ========== 开始推理 ==========")
+        print(f"[DEBUG] Python version: {sys.version}")
+        print(f"[DEBUG] PyTorch version: {torch.__version__}")
         print(f"[DEBUG] CUDA available: {torch.cuda.is_available()}")
         if torch.cuda.is_available():
             print(f"[DEBUG] CUDA device count: {torch.cuda.device_count()}")
         image_inputs, video_inputs = process_vision_info(messages)
         print(f"[DEBUG] 图像处理完成，耗时: {time.time() - start_time:.2f}s")
+        # 检查图像输入大小
+        if image_inputs:
+            for idx, img in enumerate(image_inputs):
+                if hasattr(img, 'size'):
+                    print(f"[DEBUG] Image {idx} size: {img.size}")
+                elif isinstance(img, np.ndarray):
+                    print(f"[DEBUG] Image {idx} shape: {img.shape}")
+        print(f"[DEBUG] 开始 processor 编码输入...")
+        processor_start = time.time()
+        print(f"[DEBUG] 开始 processor 编码输入...")
+        processor_start = time.time()
         inputs = processor(
             text=texts,
             images=image_inputs,
             padding=True,
             return_tensors="pt",
         )
+        print(f"[DEBUG] Processor 编码完成，耗时: {time.time() - processor_start:.2f}s")
         # 确保输入在 GPU 上
+        to_device_start = time.time()
         inputs = inputs.to('cuda' if torch.cuda.is_available() else 'cpu')
+        print(f"[DEBUG] 输入移到设备耗时: {time.time() - to_device_start:.2f}s")
+        print(f"[DEBUG] 输入准备完成，总耗时: {time.time() - start_time:.2f}s")
         print(f"[DEBUG] Input IDs shape: {inputs.input_ids.shape}")
         print(f"[DEBUG] Input device: {inputs.input_ids.device}")
         print(f"[DEBUG] Input sequence length: {inputs.input_ids.shape[1]}")
             return False
         with torch.no_grad():
+            print(f"[DEBUG] 进入 torch.no_grad() 上下文，耗时: {time.time() - start_time:.2f}s")
+            # 先做一次简单的前向传播测试
+            print(f"[DEBUG] 测试前向传播...")
+            forward_test_start = time.time()
+            try:
+                with torch.cuda.amp.autocast(dtype=torch.bfloat16):
+                    test_outputs = model(**inputs, use_cache=False)
+                print(f"[DEBUG] 前向传播测试成功，耗时: {time.time() - forward_test_start:.2f}s")
+            except Exception as e:
+                print(f"[WARNING] 前向传播测试失败: {e}")
+            print(f"[DEBUG] 开始调用 model.generate()... (当前耗时: {time.time() - start_time:.2f}s)")
+            generate_call_start = time.time()
             try:
+                # 关键：添加更激进的生成参数，强制早停
                 generated_ids = model.generate(
                     **inputs,
+                    max_new_tokens=1024,
                     repetition_penalty=1.03,
+                    do_sample=False
                 )
+                print(f"[DEBUG] model.generate() 返回，耗时: {time.time() - generate_call_start:.2f}s")
             except Exception as e:
                 print(f"[ERROR] 生成失败: {e}")
+                import traceback
+                traceback.print_exc()
                 raise
+        print(f"[DEBUG] 退出 torch.no_grad() 上下文")
         gen_time = time.time() - gen_start
         print(f"[DEBUG] ========== 生成完成 ==========")