NLLB-Fongbe: Traduction Français → Fongbe 🇫🇷 → 🇧🇯

Modèle de traduction automatique Français → Fongbe basé sur NLLB-200-distilled-600M, adapté au fongbe (langue parlée au Bénin).

Entraînement: Continuous pre-training sur textes bibliques + Fine-tuning sur 45,378 paires français-fongbe

BLEU Score: 10.29 | 615M paramètres

Utilisation

from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

# Charger le modèle
model_name = "nellaw/nllb-fongbe-french-translation"
tokenizer = AutoTokenizer.from_pretrained(model_name, src_lang="fra_Latn", tgt_lang="fon_Latn")
model = AutoModelForSeq2SeqLM.from_pretrained(model_name)

# Traduire
text_fr = "Bonjour, comment allez-vous?"
inputs = tokenizer(text_fr, return_tensors="pt", max_length=128, truncation=True)
outputs = model.generate(
    inputs.input_ids,
    max_length=128,
    num_beams=5,
    forced_bos_token_id=tokenizer.convert_tokens_to_ids("fon_Latn")
)
translation = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(translation)  # "Ku do gbe, nɛ mi ɖe gbɔn ?"

Comparaison NLLB-200 Base vs Notre Modèle

Français 📦 NLLB-200 Base 🎯 Notre Modèle 💡 Amélioration
Bonjour Xomɛ kpɔ́n Ku do gbe Plus naturel
Comment allez-vous? Nɛ̌ mi ka ɖe gbɔn? Nɛ mi ɖe gbɔn ? Simplifié
Je m'appelle Jean nyǐkɔ ce wɛ nyí Jean Un nɔ nyi Jean. Structure directe
Dieu est bon Mawu nyɔ́ Măwŭ nyɔ́ Diacritiques précis
Au revoir Agɔ́ nú mì E yi gbe Plus courant
Je viens du Bénin Un gosín Bénin Un gosin Bεnε Orthographe locale
Merci beaucoup Mi na dó kú nú mi tawun Kú dé wú Concis et naturel
Je voudrais apprendre le fongbe Un jló na kplɔ́n fɔnbu Un jlo na kplɔn fongbe Orthographe correcte!

Performances

  • BLEU: 10.29 (excellent pour une langue à faibles ressources)
  • 2-3x meilleur que NLLB-200 de base (~3-4 BLEU)
  • Orthographe correcte et diacritiques précis
  • Formulations naturelles et idiomatiques

Limitations

⚠️ Entraînement sur textes bibliques: Le modèle a été entraîné principalement sur des paroles bibliques. Il n'est pas encore parfait et peut avoir des performances variables sur d'autres domaines (conversation quotidienne, technique, médical, etc.)

  • Langue à faibles ressources (données limitées)
  • Performances optimales sur phrases courtes et moyennes

Liens

License

CC-BY-NC-4.0 (usage non-commercial)

Downloads last month
50
Safetensors
Model size
0.6B params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for nellaw/nllb-fongbe-french-translation

Finetuned
(212)
this model