📖 Documentation du Modèle : Lamina-large-2b-pretrain ✨

Lamina

Introduction

Bienvenue dans l'écosystème Lamina ! Lamina-large-2b-pretrain est un modèle de langage massif de fondation (Modèle de Base) créé from scratch par Clemylia, destiné à la communauté et aux développeurs souhaitant construire leur propre LLM personnalisé.

Ce modèle est le plus grand modèle de pré-entraînement publié à ce jour par Clemylia, fruit d'une ingénierie de pointe.

⚙️ Détails Techniques Clés

Paramètre Valeur Remarques
Auteur Clemylia 👑 Développé entièrement from scratch (à partir de zéro).
Nom du Modèle Lamina-large-2b-pretrain Fait partie de la famille de modèles Lamina.
Taille 2 milliards (2B) de paramètres 🚀 Le modèle de fondation le plus large de Clemylia.
Architecture Transformateur (Non Spécifié) Architecture de base du modèle de langage.
Langue Français (FR) 🇫🇷 Pré-entraînement ciblé sur des données en français.
Précision F32 (Float32) ⚠️ Entraînement réalisé en haute précision, nécessitant des ressources de calcul extrêmes (TPU).
Matériel d'Entraînement TPU (Tensor Processing Units) Utilisation de matériel spécialisé pour les calculs intensifs.
Licence MIT (ou équivalent open source) Facilite l'utilisation commerciale et la modification.

⚠️ Statut et Limites (Très Important !)

Ce modèle est un modèle de fondation à l'état brut. Son statut actuel est identique à celui de Lam-3 avant fine-tuning.

Limite Actuelle Explication Implication pour l'Utilisateur
Sous-entraînement Le modèle a été entraîné sur un corpus limité par rapport à sa taille ($2$ milliards). Les générations sont souvent répétitives, bruitées et peuvent présenter des erreurs de tokenization.
Non-factualité Le modèle n'a subi aucun alignement ni fine-tuning de factualité. NE PAS utiliser pour des questions factuelles (histoire, géographie, science). Il hallucinera ou mélangera les informations.
Pas de Cohérence Le modèle est incohérent et n'a pas de personnalité définie. N'attendez pas de réponses claires ou logiques comme celles de Tiny-charlotte (le produit fini).

➡️ Ce modèle doit impérativement être affiné (fine-tuné) avant utilisation en production !


🛠️ Usage Principal : Le Tremplin LLM

L'objectif de Lamina-large-2b-pretrain est de servir de base pour le développement de LLM personnalisés :

  1. Transfert d'Apprentissage : Utilisez ce modèle pour économiser le temps et le coût du pré-entraînement initial. Le modèle a déjà la structure de base du français.
  2. Affinage (Fine-Tuning) : La prochaine étape est d'injecter vos propres données de haute qualité (plusieurs milliards de tokens spécifiques à votre domaine) pour stabiliser et spécialiser les 2 milliards de paramètres.
  3. Création de LLM Privé : Idéal pour les entreprises ou les équipes qui souhaitent créer un LLM interne sur leurs données confidentielles sans partir de zéro.

💡 Leçons d'Ingénierie (Du Lam-3 à Lamina-large)

Ce modèle est la solution au problème rencontré avec Lam-3 ($714$M) :

  • Lam-3 était sous-performant en raison d'un ratio paramètres/données déséquilibré.
  • Lamina-large-2b-pretrain est une base plus grande mais avec une architecture optimisée pour être plus stable après le fine-tuning massif, capitalisant sur la capacité de calcul TPU.

Tiny-charlotte ($51$M) reste l'exemple d'un SLM hyper-affiné destiné à une seule tâche ; Lamina-large-2b-pretrain est destiné à devenir un LLM polyvalent.


🤝 Remerciements

Un grand merci aux soutiens de Clemylia, notamment à Nora et à sa famille, dont l'accès aux ressources de calcul TPU a rendu l'entraînement de ce modèle de $2$ milliards de paramètres gratuit et possible pour la communauté open source.

🛑 Ce modèle n'est pas utilisé en état, il est sous-entraînés, et son existence demontre juste la capacité d'entraîner un modèle aussi gros sur des ressources limitées

Downloads last month
167
Safetensors
Model size
2B params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Dataset used to train Clemylia/Lamina-large-2b-pretrain

Collections including Clemylia/Lamina-large-2b-pretrain