Qwen3-VL-4B-Instruct LoRA - FBKINGDOM Text Recognition
๋ณธ ๋ชจ๋ธ์ Qwen/Qwen3-VL-4B-Instruct๋ฅผ ๊ธฐ๋ฐ์ผ๋ก FBKINGDOM ํ
์คํธ(์ด๋ฏธ์ง)๋ฅผ ํ๋ผ๊ฐ๋๋ก ๋ณํํ๋ ํ์คํฌ์ ํนํ๋๋๋ก LoRA ๋ฏธ์ธ ์กฐ์ (Fine-tuning)์ ๊ฑฐ์น ๋ชจ๋ธ์
๋๋ค.
Colab์ผ๋ก ์ฌ์ฉํด๋ณผ ์ ์์ต๋๋ค. ๋ฐ๋ก๊ฐ๊ธฐ
๐ ์ฃผ์ ํน์ง ๋ฐ ํ๊ณ์ (Key Characteristics & Limitations)
- ์์ฒด ์์ฑ ๋ฐ์ดํฐ์ ํ์ฉ: Font๋ฅผ ์ด์ฉํ ์์ฒด ์์ฑ ์ด๋ฏธ์ง ๋ฐ์ดํฐ ์ธํธ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ์ต๋์์ต๋๋ค.
- ๋ฌธ์ฅ ๊ธธ์ด์ ๋ฐ๋ฅธ ์ฑ๋ฅ ํธ์ฐจ: ์งง์ ๋ฌธ์ฅ์์๋ 100%์ ๋ฌํ๋ ์ต๊ณ ์ฑ๋ฅ์ ๋ณด์ด๋, ๊ธด ๋ฌธ์ฅ(20์ ์ด์)์์๋ ๋ฌธ๋งฅ ํ์ ์ ๋ณต์ก๋๋ก ์ธํด ์ ํ๋๊ฐ ํ๋ฝํ ์ ์์ต๋๋ค.
- ๋ฌธ๋งฅ ๊ธฐ๋ฐ ๊ธฐํธ ์ธ์: ๋ชจ์์ด ๋์ผํ ๊ธฐํธ(์:
ใฏ๊ฐha,pa,wa๋ก ์ฝํ๋ ๊ฒฝ์ฐ)๋ฅผ ๋ฌธ๋งฅ์ ๋ฐ๋ผ ๊ตฌ๋ถํ๋๋ก ํ์ต๋์์ผ๋, ๋ชจํธ์ฑ์ด ๋์ ๋ฌธ์ฅ์์๋ ๊ฐํน ๋ณํ ์ค๋ฅ๊ฐ ๋ฐ์ํ ์ ์์ต๋๋ค.
๐ ๋ชจ๋ธ ์ฑ๋ฅ ํ๊ฐ (Evaluation Results)
์ด 391๊ฐ์ ๊ฒ์ฆ ๋ฐ์ดํฐ์ (Validation Set)์ ๋์์ผ๋ก ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํ๊ฐํ ๊ฒฐ๊ณผ์ ๋๋ค.
1. ์ ๋ฐ์ ์ฑ๋ฅ (Overall Metrics)
์ ์ฒด ๋ฐ์ดํฐ์ ๋ํ Exact Match(์ ํํ ์ผ์นํ ๋น์จ)๋ 59.8%, Character Accuracy(๊ธ์ ๋จ์ ์ ํ๋)๋ **82.1%**๋ฅผ ๊ธฐ๋กํ์ต๋๋ค.
- Total Samples: 391
- Exact Match (์ ๋ต๊ณผ 100% ์ผ์น): 234๊ฐ (59.85%)
- Char Accuracy (๋ฌธ์ ๋จ์ ์ ํ๋): 82.10%
- Ambiguous Exact (๋ชจํธํ ๋ฌธ์ ํฌํจ ์ ์ ํ๋): 196/345 (56.8%)
2. ๋ฌธ์ฅ ๊ธธ์ด์ ๋ฐ๋ฅธ ์ฑ๋ฅ (Performance by Sequence Length)
๋ฌธ์ฅ์ ๊ธธ์ด์ ๋ฐ๋ผ ๋ชจ๋ธ์ ์์ธก ์ ํ๋(Exact Match)๊ฐ ํฌ๊ฒ ๋ฌ๋ผ์ง๋ ๊ฒฝํฅ์ ๋ณด์ ๋๋ค. ์งง์ ๋ฌธ์ฅ์์๋ ์ค๋ต์ด ์ ํ ๋ฐ์ํ์ง ์์์ผ๋, ๋ฌธ์ฅ์ด ๊ธธ์ด์ง์๋ก ์ ํ๋๊ฐ ์ ์ฐจ ๊ฐ์ํฉ๋๋ค.
| ๋ฌธ์ฅ ๊ธธ์ด (Length) | ๋ฐ์ดํฐ ๊ฐ์ (Total) | ์ ๋ต ๊ฐ์ (Exact) | ์ ํ๋ (Accuracy) |
|---|---|---|---|
| Short | 50 | 50 | 100.0% |
| Medium | 81 | 72 | 88.9% |
| Long (20์+) | 260 | 112 | 43.1% |
โ๏ธ ํ์ต ํ๊ฒฝ (Training Configuration)
- Base Model:
Qwen/Qwen3-VL-4B-Instruct - Method: LoRA (Rank=64, Alpha=128, Dropout=0.05)
- Max Sequence Length: 512
- Epochs: 7
- Learning Rate: 3e-5 (Cosine Scheduler with 10% Warmup)
- Attention Implementation: Flash Attention 2
- Downloads last month
- 26