Qwen3-VL-4B-Instruct LoRA - FBKINGDOM Text Recognition

본 모델은 Qwen/Qwen3-VL-4B-Instruct를 기반으로 FBKINGDOM 텍스트(이미지)를 히라가나로 변환하는 태스크에 특화되도록 LoRA 미세 조정(Fine-tuning)을 거친 모델입니다.

Colab으로 사용해볼 수 있습니다. 바로가기

📌 주요 특징 및 한계점 (Key Characteristics & Limitations)

자체 생성 데이터셋 활용: Font를 이용한 자체 생성 이미지 데이터 세트를 기반으로 학습되었습니다.
문장 길이에 따른 성능 편차: 짧은 문장에서는 100%에 달하는 최고 성능을 보이나, 긴 문장(20자 이상)에서는 문맥 파악의 복잡도로 인해 정확도가 하락할 수 있습니다.
문맥 기반 기호 인식: 모양이 동일한 기호(예: は가 ha, pa, wa로 읽히는 경우)를 문맥에 따라 구분하도록 학습되었으나, 모호성이 높은 문장에서는 간혹 변환 오류가 발생할 수 있습니다.

총 391개의 검증 데이터셋(Validation Set)을 대상으로 모델의 성능을 평가한 결과입니다.

전체 데이터에 대한 Exact Match(정확히 일치한 비율)는 59.8%, Character Accuracy(글자 단위 정확도)는 **82.1%**를 기록했습니다.

문장의 길이에 따라 모델의 예측 정확도(Exact Match)가 크게 달라지는 경향을 보입니다. 짧은 문장에서는 오답이 전혀 발생하지 않았으나, 문장이 길어질수록 정확도가 점차 감소합니다.

문장 길이 (Length)	데이터 개수 (Total)	정답 개수 (Exact)	정확도 (Accuracy)
Short	50	50	100.0%
Medium	81	72	88.9%
Long (20자+)	260	112	43.1%

Safetensors

Model size

4B params

Tensor type

F16

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Base model

Finetuned

(205)

this model

Quantizations