Spaces:

AYI-NEDJIMI
/

Dataset-Explorer

Build error

App Files Files Community

Guide Complet HuggingFace - Tout Savoir pour Bien Demarrer (Tutoriel Exhaustif)

by AYI-NEDJIMI - opened 1 day ago

Discussion

AYI-NEDJIMI

Owner 1 day ago

Guide Complet HuggingFace - Tout Savoir pour Bien Demarrer

Auteur : AYI-NEDJIMI | Consultant IA & Cybersecurite

Ce tutoriel exhaustif vous guide pas a pas dans l'ecosysteme HuggingFace : du Hub aux bibliotheques Python, en passant par la communaute et les fonctionnalites Pro/Enterprise. Que vous soyez debutant ou developpeur confirme, vous trouverez ici toutes les cles pour exploiter la plateforme leader de l'IA open-source.

1. Qu'est-ce que HuggingFace ?

HuggingFace est la plateforme de reference mondiale pour l'intelligence artificielle open-source. Fondee en 2016, elle est devenue le "GitHub de l'IA" avec plus de 500 000 modeles, 100 000 datasets et 300 000 Spaces heberges.

1.1 Le Hub HuggingFace

Le Hub est le coeur de l'ecosysteme. Il s'agit d'une plateforme collaborative ou vous pouvez :

Decouvrir des modeles pre-entraines pour toutes les taches d'IA
Partager vos propres modeles, datasets et applications
Collaborer avec la communaute via discussions et pull requests
Deployer des applications IA en quelques clics

# Explorer le Hub programmatiquement
from huggingface_hub import HfApi

api = HfApi()

# Lister les modeles les plus telecharges
models = api.list_models(sort="downloads", direction=-1, limit=5)
for model in models:
    print(f"{model.id} - {model.downloads:,} telechargements")

# Lister les datasets populaires
datasets = api.list_datasets(sort="downloads", direction=-1, limit=5)
for ds in datasets:
    print(f"{ds.id} - {ds.downloads:,} telechargements")

1.2 L'Ecosysteme Complet

HuggingFace n'est pas qu'un simple hub. C'est un ecosysteme complet comprenant :

Composant	Description
Hub	Plateforme de partage de modeles, datasets et Spaces
Transformers	Bibliotheque Python pour les modeles de deep learning
Datasets	Chargement et traitement de donnees a grande echelle
Gradio	Creation rapide d'interfaces web pour vos modeles
Accelerate	Entrainement distribue simplifie
PEFT	Fine-tuning efficace (LoRA, QLoRA)
TRL	Entrainement par renforcement pour les LLM
Inference API	API d'inference hebergee

1.3 La Communaute

Avec plus de 5 millions d'utilisateurs, HuggingFace est la plus grande communaute IA au monde. Vous y trouverez :

Des chercheurs de Google, Meta, Microsoft, OpenAI
Des startups IA innovantes
Des developpeurs independants
Des etudiants et enseignants

2. Creer son Compte et Configurer son Environnement

2.1 Inscription

Rendez-vous sur huggingface.co
Cliquez sur "Sign Up"
Remplissez vos informations (email, pseudo, mot de passe)
Confirmez votre email

2.2 Configurer votre Profil

Un bon profil HuggingFace est essentiel pour la visibilite :

Photo de profil : ajoutez une photo professionnelle
Bio : decrivez vos domaines d'expertise
Liens : ajoutez votre site web, GitHub, LinkedIn
Organisations : rejoignez ou creez des organisations

2.3 Tokens d'API

Les tokens sont necessaires pour interagir avec le Hub via l'API :

# Methode 1 : Login via CLI
# Dans votre terminal :
# huggingface-cli login

# Methode 2 : Token en variable d'environnement
import os
os.environ["HF_TOKEN"] = "hf_votre_token_ici"

# Methode 3 : Token direct dans le code
from huggingface_hub import HfApi
api = HfApi(token="hf_votre_token_ici")

# Methode 4 : Login programmatique
from huggingface_hub import login
login(token="hf_votre_token_ici")

Types de tokens :

Read : lire les repos prives
Write : pousser des modeles/datasets
Fine-grained : permissions specifiques par repo

2.4 Installation des Bibliotheques

# Installation complete de l'ecosysteme HuggingFace
pip install transformers datasets huggingface_hub gradio accelerate peft trl
pip install torch torchvision torchaudio  # PyTorch
pip install evaluate scikit-learn  # Evaluation

# Verifier les installations
python -c "import transformers; print(f'Transformers: {transformers.__version__}')"
python -c "import datasets; print(f'Datasets: {datasets.__version__}')"
python -c "import gradio; print(f'Gradio: {gradio.__version__}')"

3. Naviguer sur le Hub

3.1 Explorer les Modeles

Le Hub propose des filtres puissants pour trouver le bon modele :

Tache (pipeline_tag) : text-generation, text-classification, image-classification...
Bibliotheque : PyTorch, TensorFlow, JAX, ONNX
Langue : fr, en, multilingual
Licence : MIT, Apache 2.0, CC-BY
Taille : nombre de parametres

from huggingface_hub import HfApi

api = HfApi()

# Chercher des modeles de generation de texte en francais
models = api.list_models(
    filter="text-generation",
    language="fr",
    sort="downloads",
    direction=-1,
    limit=10
)

for m in models:
    print(f"  {m.id} ({m.downloads:,} DL)")

3.2 Explorer les Datasets

# Chercher des datasets en francais
datasets_list = api.list_datasets(
    language="fr",
    sort="downloads",
    direction=-1,
    limit=10
)

for ds in datasets_list:
    print(f"  {ds.id}")

3.3 Explorer les Spaces

Les Spaces sont des applications web hebergees gratuitement. Types disponibles :

Gradio : interfaces ML interactives (le plus populaire)
Streamlit : dashboards et apps data
Docker : conteneurs personnalises
Static : sites web statiques (HTML/CSS/JS)

# Lister les Spaces populaires
spaces = api.list_spaces(sort="likes", direction=-1, limit=10)
for s in spaces:
    print(f"  {s.id} - {s.likes} likes")

3.4 Explorer les Papers

HuggingFace integre desormais les articles de recherche IA avec :

Liens directs vers les modeles et datasets associes
Discussions communautaires sur chaque paper
Daily Papers : les meilleurs articles du jour votes par la communaute

4. Les Bibliotheques Python HuggingFace en Detail

4.1 Transformers - Le Coeur de l'Ecosysteme

from transformers import pipeline

# Pipeline de classification de texte
classifier = pipeline("text-classification", model="nlptown/bert-base-multilingual-uncased-sentiment")
result = classifier("Ce produit est excellent, je le recommande vivement !")
print(result)
# [{'label': '5 stars', 'score': 0.73}]

# Pipeline de generation de texte
generator = pipeline("text-generation", model="gpt2")
text = generator("L'intelligence artificielle va", max_length=50)
print(text[0]['generated_text'])

# Pipeline de traduction
translator = pipeline("translation_en_to_fr", model="Helsinki-NLP/opus-mt-en-fr")
result = translator("HuggingFace is the best platform for AI.")
print(result[0]['translation_text'])

# Pipeline de question-reponse
qa = pipeline("question-answering", model="etalab-ia/camembert-base-squadFR-fquad-piaf")
result = qa(question="Qu'est-ce que HuggingFace ?",
           context="HuggingFace est une plateforme d'IA open-source fondee en 2016.")
print(result['answer'])

4.2 Datasets - Charger et Traiter des Donnees

from datasets import load_dataset

# Charger un dataset populaire
dataset = load_dataset("squad_v2")
print(dataset)
print(dataset['train'][0])

# Charger en streaming (pour les gros datasets)
dataset = load_dataset("wikipedia", "20220301.fr", streaming=True)
for example in dataset['train']:
    print(example['title'])
    break

# Filtrer et transformer
dataset = load_dataset("imdb")
small_dataset = dataset['train'].select(range(100))
filtered = small_dataset.filter(lambda x: x['label'] == 1)
print(f"Avis positifs: {len(filtered)}")

4.3 HuggingFace Hub - Interagir avec le Hub

from huggingface_hub import HfApi, Repository, create_repo

api = HfApi()

# Creer un nouveau repository
# create_repo("mon-super-modele", repo_type="model")

# Telecharger un fichier
api.hf_hub_download(repo_id="gpt2", filename="config.json")

# Lister les fichiers d'un repo
files = api.list_repo_files("gpt2")
print(files[:5])

# Obtenir les infos d'un modele
info = api.model_info("gpt2")
print(f"Modele: {info.id}")
print(f"Telechargements: {info.downloads:,}")
print(f"Likes: {info.likes}")

4.4 Gradio - Creer des Interfaces Web

import gradio as gr

def saluer(nom):
    return f"Bonjour {nom} ! Bienvenue sur HuggingFace."

demo = gr.Interface(
    fn=saluer,
    inputs=gr.Textbox(label="Votre nom"),
    outputs=gr.Textbox(label="Message"),
    title="Mon Premier Space Gradio",
    description="Une application simple pour decouvrir Gradio"
)

# demo.launch()  # Lance en local
# demo.launch(share=True)  # Lance avec lien public

4.5 Accelerate - Entrainement Distribue

from accelerate import Accelerator

accelerator = Accelerator()

# Accelerate gere automatiquement :
# - Multi-GPU
# - Mixed precision (fp16, bf16)
# - DeepSpeed
# - FSDP
# Sans changer votre code d'entrainement !

# model, optimizer, dataloader = accelerator.prepare(
#     model, optimizer, dataloader
# )

4.6 PEFT - Fine-tuning Efficace

from peft import LoraConfig, get_peft_model

# Configuration LoRA pour fine-tuning efficace
lora_config = LoraConfig(
    r=16,           # Rang de la decomposition
    lora_alpha=32,  # Facteur d'echelle
    target_modules=["q_proj", "v_proj"],  # Modules cibles
    lora_dropout=0.05,
    bias="none",
    task_type="CAUSAL_LM"
)

# Appliquer LoRA au modele
# peft_model = get_peft_model(model, lora_config)
# peft_model.print_trainable_parameters()
# Sortie: "trainable params: 4,194,304 || all params: 6,742,609,920 || trainable%: 0.0622%"

4.7 TRL - Entrainement par Renforcement

from trl import SFTTrainer, SFTConfig

# SFTTrainer pour le Supervised Fine-Tuning
# trainer = SFTTrainer(
#     model=model,
#     train_dataset=dataset,
#     args=SFTConfig(output_dir="./results", max_seq_length=512),
#     peft_config=lora_config,
# )
# trainer.train()

5. Fonctionnalites Sociales et Communautaires

5.1 Likes et Bookmarks

Like : montrez votre appreciation pour un modele/dataset/Space
Bookmark : sauvegardez pour retrouver facilement plus tard

# Liker un modele programmatiquement
api.like("meta-llama/Llama-3.1-8B")

# Voir vos likes
likes = api.list_liked_repos("AYI-NEDJIMI")

5.2 Suivre des Utilisateurs et Organisations

Suivez vos chercheurs et organisations preferes pour rester informe de leurs publications.

5.3 Organisations

Les organisations permettent de :

Regrouper des modeles/datasets sous une meme entite
Gerer les permissions d'equipe
Avoir un profil public professionnel

5.4 Collections

Les collections vous permettent d'organiser et partager des ensembles curates de repos :

# Creer une collection
# api.create_collection(
#     title="Mes Modeles NLP Francais",
#     description="Collection de modeles NLP pour le francais"
# )

Decouvrez notre collection CyberSec AI : CyberSec AI Portfolio

6. HuggingFace Pro et Enterprise

6.1 HuggingFace Pro ($9/mois)

Inference API : limites augmentees
Spaces : hardware ameliore (GPU)
Repos prives : illimites
Early access : nouvelles fonctionnalites en avant-premiere
Badge Pro sur votre profil

6.2 HuggingFace Enterprise

Pour les entreprises, HuggingFace propose :

Hub prive : instance dedicee du Hub
SSO/SAML : authentification d'entreprise
Audit logs : tracabilite complete
SLA : garantie de disponibilite
Support premium : equipe dediee
Inference Endpoints : deploiement production
Hardware GPU : A100, H100, etc.

6.3 Pricing des Spaces

Tier	Hardware	Prix
Free	2 vCPU, 16 Go RAM	Gratuit
CPU Upgrade	8 vCPU, 32 Go RAM	$0.03/h
T4 small	Nvidia T4, 4 Go VRAM	$0.06/h
T4 medium	Nvidia T4, 16 Go VRAM	$0.09/h
A10G small	Nvidia A10G, 24 Go VRAM	$0.10/h
A100 large	Nvidia A100, 80 Go VRAM	$4.13/h

7. Premiers Pas Pratiques

7.1 Votre Premier Modele

from transformers import AutoTokenizer, AutoModelForCausalLM

# Charger un modele et son tokenizer
model_name = "distilgpt2"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)

# Generer du texte
input_text = "L'intelligence artificielle"
inputs = tokenizer(input_text, return_tensors="pt")
outputs = model.generate(**inputs, max_length=100)
result = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(result)

7.2 Votre Premier Dataset

from datasets import load_dataset, Dataset
import pandas as pd

# Creer un dataset a partir d'un dictionnaire
data = {
    "question": ["Qu'est-ce que HuggingFace ?", "Qu'est-ce que LoRA ?"],
    "reponse": ["Plateforme IA open-source", "Methode de fine-tuning efficace"]
}
dataset = Dataset.from_dict(data)
print(dataset)
print(dataset[0])

# Sauvegarder et charger
dataset.save_to_disk("./mon_dataset")
# dataset.push_to_hub("mon-username/mon-dataset")

7.3 Votre Premier Space

Allez sur huggingface.co/new-space
Choisissez un nom et le SDK (Gradio recommande)
Editez app.py directement dans le navigateur :

import gradio as gr
from transformers import pipeline

classifier = pipeline("sentiment-analysis")

def analyze(text):
    result = classifier(text)
    return f"Sentiment: {result[0]['label']} (confiance: {result[0]['score']:.2%})"

demo = gr.Interface(
    fn=analyze,
    inputs=gr.Textbox(placeholder="Entrez du texte..."),
    outputs="text",
    title="Analyse de Sentiment",
)
demo.launch()

8. Bonnes Pratiques et Conseils

8.1 Pour les Debutants

Commencez par les pipelines : elles abstraient la complexite
Explorez le Hub : filtrez par tache et langue
Lisez les model cards : elles expliquent les usages et limites
Rejoignez la communaute : Discord, forums, discussions
Suivez les cours : huggingface.co/learn

8.2 Pour les Developpeurs

Utilisez les tokens fine-grained pour la securite
Activez le caching pour eviter de retelecharger les modeles
Utilisez le streaming pour les gros datasets
Documentez vos repos avec des model/dataset cards completes
Versionnez vos modeles avec des branches git

8.3 Ressources d'Apprentissage

HuggingFace Course : huggingface.co/learn/nlp-course
Documentation : huggingface.co/docs
Blog : huggingface.co/blog
YouTube : chaine officielle HuggingFace
Discord : communaute active et accueillante

Conclusion

HuggingFace est bien plus qu'une simple plateforme : c'est un ecosysteme complet qui democratise l'IA. Avec ses bibliotheques open-source, son Hub collaboratif et sa communaute active, elle offre tout ce dont vous avez besoin pour demarrer, experimenter et deployer des solutions IA.

N'hesitez pas a explorer notre portfolio de modeles et Spaces dedies a la cybersecurite : CyberSec AI Portfolio

Tutoriel redige par AYI-NEDJIMI - Consultant IA & Cybersecurite
Pour plus de ressources, consultez nos autres tutoriels dans cette serie.

Upload images, audio, and videos by dragging in the text input, pasting, or clicking here.

Tap or paste here to upload images

· Sign up or log in to comment