ubergarm
/

Qwen3-235B-A22B-GGUF

@@ -47,8 +47,8 @@ Final estimate: PPL = 5.4403 +/- 0.03421 (wiki.test.raw, compare to Q8_0 at 5.31
 #### `ik_llama.cpp` API server for hybrid GPU+CPU inferencing
 ```bash
 # This example for 24GB VRAM + 96 GB RAM + 16 physical core CPU
-# Offload first ffn layers  0-11 on GPU VRAM.
-# Offload final ffn layers 12-93 on CPU RAM.
 ./build/bin/llama-server
   --model ubergarm/Qwen3-235B-A22B-GGUF/Qwen3-235B-A22B-mix-IQ3_K-00001-of-00003.gguf \
   --alias ubergarm/Qwen3-235B-A22B-mix-IQ3_K \

 #### `ik_llama.cpp` API server for hybrid GPU+CPU inferencing
 ```bash
 # This example for 24GB VRAM + 96 GB RAM + 16 physical core CPU
+# Offload first ffn layers  0-9 on GPU VRAM.
+# Leave remaining ffn layers on CPU RAM.
 ./build/bin/llama-server
   --model ubergarm/Qwen3-235B-A22B-GGUF/Qwen3-235B-A22B-mix-IQ3_K-00001-of-00003.gguf \
   --alias ubergarm/Qwen3-235B-A22B-mix-IQ3_K \