NLLB-Fongbe: Traduction Français → Fongbe 🇫🇷 → 🇧🇯
Modèle de traduction automatique Français → Fongbe basé sur NLLB-200-distilled-600M, adapté au fongbe (langue parlée au Bénin).
Entraînement: Continuous pre-training sur textes bibliques + Fine-tuning sur 45,378 paires français-fongbe
BLEU Score: 10.29 | 615M paramètres
Utilisation
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
# Charger le modèle
model_name = "nellaw/nllb-fongbe-french-translation"
tokenizer = AutoTokenizer.from_pretrained(model_name, src_lang="fra_Latn", tgt_lang="fon_Latn")
model = AutoModelForSeq2SeqLM.from_pretrained(model_name)
# Traduire
text_fr = "Bonjour, comment allez-vous?"
inputs = tokenizer(text_fr, return_tensors="pt", max_length=128, truncation=True)
outputs = model.generate(
inputs.input_ids,
max_length=128,
num_beams=5,
forced_bos_token_id=tokenizer.convert_tokens_to_ids("fon_Latn")
)
translation = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(translation) # "Ku do gbe, nɛ mi ɖe gbɔn ?"
Comparaison NLLB-200 Base vs Notre Modèle
| Français | 📦 NLLB-200 Base | 🎯 Notre Modèle | 💡 Amélioration |
|---|---|---|---|
| Bonjour | Xomɛ kpɔ́n | Ku do gbe | Plus naturel |
| Comment allez-vous? | Nɛ̌ mi ka ɖe gbɔn? | Nɛ mi ɖe gbɔn ? | Simplifié |
| Je m'appelle Jean | nyǐkɔ ce wɛ nyí Jean | Un nɔ nyi Jean. | Structure directe |
| Dieu est bon | Mawu nyɔ́ | Măwŭ nyɔ́ | Diacritiques précis |
| Au revoir | Agɔ́ nú mì | E yi gbe | Plus courant |
| Je viens du Bénin | Un gosín Bénin | Un gosin Bεnε | Orthographe locale |
| Merci beaucoup | Mi na dó kú nú mi tawun | Kú dé wú | Concis et naturel |
| Je voudrais apprendre le fongbe | Un jló na kplɔ́n fɔnbu ❌ | Un jlo na kplɔn fongbe ✅ | Orthographe correcte! |
Performances
- BLEU: 10.29 (excellent pour une langue à faibles ressources)
- 2-3x meilleur que NLLB-200 de base (~3-4 BLEU)
- Orthographe correcte et diacritiques précis
- Formulations naturelles et idiomatiques
Limitations
⚠️ Entraînement sur textes bibliques: Le modèle a été entraîné principalement sur des paroles bibliques. Il n'est pas encore parfait et peut avoir des performances variables sur d'autres domaines (conversation quotidienne, technique, médical, etc.)
- Langue à faibles ressources (données limitées)
- Performances optimales sur phrases courtes et moyennes
Liens
- Code et exemples: GitHub - Arnel7/fon
- Modèle de base: facebook/nllb-200-distilled-600M
License
CC-BY-NC-4.0 (usage non-commercial)
- Downloads last month
- 50
Model tree for nellaw/nllb-fongbe-french-translation
Base model
facebook/nllb-200-distilled-600M