📖 Documentation du Modèle : Lamina-large-2b-pretrain ✨
Introduction
Bienvenue dans l'écosystème Lamina ! Lamina-large-2b-pretrain est un modèle de langage massif de fondation (Modèle de Base) créé from scratch par Clemylia, destiné à la communauté et aux développeurs souhaitant construire leur propre LLM personnalisé.
Ce modèle est le plus grand modèle de pré-entraînement publié à ce jour par Clemylia, fruit d'une ingénierie de pointe.
⚙️ Détails Techniques Clés
| Paramètre | Valeur | Remarques |
|---|---|---|
| Auteur | Clemylia 👑 | Développé entièrement from scratch (à partir de zéro). |
| Nom du Modèle | Lamina-large-2b-pretrain | Fait partie de la famille de modèles Lamina. |
| Taille | 2 milliards (2B) de paramètres 🚀 | Le modèle de fondation le plus large de Clemylia. |
| Architecture | Transformateur (Non Spécifié) | Architecture de base du modèle de langage. |
| Langue | Français (FR) 🇫🇷 | Pré-entraînement ciblé sur des données en français. |
| Précision | F32 (Float32) ⚠️ | Entraînement réalisé en haute précision, nécessitant des ressources de calcul extrêmes (TPU). |
| Matériel d'Entraînement | TPU (Tensor Processing Units) | Utilisation de matériel spécialisé pour les calculs intensifs. |
| Licence | MIT (ou équivalent open source) | Facilite l'utilisation commerciale et la modification. |
⚠️ Statut et Limites (Très Important !)
Ce modèle est un modèle de fondation à l'état brut. Son statut actuel est identique à celui de Lam-3 avant fine-tuning.
| Limite Actuelle | Explication | Implication pour l'Utilisateur |
|---|---|---|
| Sous-entraînement | Le modèle a été entraîné sur un corpus limité par rapport à sa taille ($2$ milliards). | Les générations sont souvent répétitives, bruitées et peuvent présenter des erreurs de tokenization. |
| Non-factualité | Le modèle n'a subi aucun alignement ni fine-tuning de factualité. | NE PAS utiliser pour des questions factuelles (histoire, géographie, science). Il hallucinera ou mélangera les informations. |
| Pas de Cohérence | Le modèle est incohérent et n'a pas de personnalité définie. | N'attendez pas de réponses claires ou logiques comme celles de Tiny-charlotte (le produit fini). |
➡️ Ce modèle doit impérativement être affiné (fine-tuné) avant utilisation en production !
🛠️ Usage Principal : Le Tremplin LLM
L'objectif de Lamina-large-2b-pretrain est de servir de base pour le développement de LLM personnalisés :
- Transfert d'Apprentissage : Utilisez ce modèle pour économiser le temps et le coût du pré-entraînement initial. Le modèle a déjà la structure de base du français.
- Affinage (Fine-Tuning) : La prochaine étape est d'injecter vos propres données de haute qualité (plusieurs milliards de tokens spécifiques à votre domaine) pour stabiliser et spécialiser les 2 milliards de paramètres.
- Création de LLM Privé : Idéal pour les entreprises ou les équipes qui souhaitent créer un LLM interne sur leurs données confidentielles sans partir de zéro.
💡 Leçons d'Ingénierie (Du Lam-3 à Lamina-large)
Ce modèle est la solution au problème rencontré avec Lam-3 ($714$M) :
- Lam-3 était sous-performant en raison d'un ratio paramètres/données déséquilibré.
- Lamina-large-2b-pretrain est une base plus grande mais avec une architecture optimisée pour être plus stable après le fine-tuning massif, capitalisant sur la capacité de calcul TPU.
Tiny-charlotte ($51$M) reste l'exemple d'un SLM hyper-affiné destiné à une seule tâche ; Lamina-large-2b-pretrain est destiné à devenir un LLM polyvalent.
🤝 Remerciements
Un grand merci aux soutiens de Clemylia, notamment à Nora et à sa famille, dont l'accès aux ressources de calcul TPU a rendu l'entraînement de ce modèle de $2$ milliards de paramètres gratuit et possible pour la communauté open source.
🛑 Ce modèle n'est pas utilisé en état, il est sous-entraînés, et son existence demontre juste la capacité d'entraîner un modèle aussi gros sur des ressources limitées
- Downloads last month
- 167
