Classement compar:IA : des votes des utilisateurs au classement participatif des modèles
Depuis octobre 2024, compar:IA permet à des milliers d’internautes de comparer, à l’aveugle, les réponses de plusieurs modèles d’intelligence artificielle. À chaque duel, les utilisateurs votent pour la réponse qu’ils préfèrent, sans connaître le modèle derrière.
Ces votes, collectés depuis l’ouverture du service, alimentent un jeu de données ouvert et public, à l’origine du premier classement participatif francophone des modèles d’IA, conçu avec le PEReN – Pôle d’expertise de la régulation numérique.
L’objectif du classement n’est pas de désigner un « meilleur modèle », mais d’offrir un outil de transparence et de compréhension de l’écosystème des IA génératives, fondé sur les préférences réelles exprimées par les utilisateurs. Le classement complet est accessible sur comparia.beta.gouv.fr/ranking et sur Hugging Face.
1. Un classement participatif s'inscrivant dans une logique de transparence
Le classement compar:IA repose sur l’ensemble des votes collectés depuis l’ouverture du service au public en octobre 2024. Il est mis à jour sur une base hebdomadaire. Chaque vote correspond à une confrontation directe entre deux modèles : le modèle préféré remporte le duel.
Ce classement se distingue par son approche ouverte et participative. Les données issues des votes sont publiées sous licence Etalab 2.0, et la méthodologie d’élaboration du score est entièrement transparente et reproductible. L’ensemble des données et notebooks permettant de recalculer les scores est disponible publiquement sur GitHub et Hugging Face, favorisant ainsi la réutilisation et la vérification des résultats.
Le classement compar:IA n’a pas vocation à constituer une recommandation officielle ni à évaluer la performance technique des modèles. Il reflète les préférences subjectives des utilisateurs de la plateforme, sans mesure directe de la factualité ou de la véracité des réponses. Le classement doit être interprété comme une photographie collective des préférences à un instant donné, susceptible d’évoluer avec le temps, l’ajout de nouveaux modèles ou la diversification des utilisateurs.
Cette approche vise avant tout à :
- rendre visibles les dynamiques de l’écosystème des IA génératives ;
- encourager la diversité des modèles, notamment open source ;
- et introduire des critères d’analyse nouveaux, comme la sobriété énergétique.
2. Tendances observées dans le classement (octobre 2025)
Le classement devient ainsi un outil d’observation de l’évolution du marché et des usages, plutôt qu’un simple indicateur de performance. Les résultats montrent une concurrence accrue entre modèles propriétaires et open source, une diversification géographique de l’offre, au-delà de la forte présence nord-américaine et un intérêt croissant des utilisateurs pour des modèles plus légers et sobres.
Un écosystème multipolaire en constante expansion
Le classement du 23 octobre 2025 intègre 60 modèles issus de 15 éditeurs distincts.
Il illustre la structuration d’un écosystème multipolaire, partagé entre acteurs nord-américains, européens et asiatiques. Les principaux éditeurs représentés sont : Mistral AI (10 modèles classés), OpenAI (10 modèles), Google (9 modèles), Meta (6 modèles), Alibaba (5 modèles).
À côté de ces acteurs, de nouveaux entrants comme xAI, 01.ai ou Liquid témoignent d’un marché en expansion rapide. Les modèles open-weights représentent 67 % du classement, soit 40 modèles sur 60. Cette proportion illustre la vitalité de l’écosystème open source, qui progresse rapidement en qualité perçue.
La satisfaction au regard de la sobriété énergétique
Le classement peut être analysé en fonction de l'estimation de la consommation énergétique (en Wh pour 1 000 tokens générés), calculée selon la méthodologie Ecologits (GenAI Impact). Seuls les modèles ouverts ou semi-ouverts sont inclus dans cette estimation, car les modèles propriétaires ne publient pas leurs caractéristiques techniques (taille, architecture, optimisations d’inférence).
Les modèles les plus économes affichent une consommation de 3 à 7 Wh/1000 tokens, tandis que les plus gourmands atteignent jusqu’à 238 Wh/1000 tokens. Le ratio de consommation entre le modèle le plus sobre et le plus énergivore est donc d’environ 1 à 80.
Cette variabilité importante souligne la nécessité d’intégrer des critères environnementaux dans l’évaluation des modèles. Les modèles compacts (7 à 32 milliards de paramètres) comme Gemma 3-12B, Gemma 3-4B ou Qwen 3-32B figurent parmi les mieux classés, illustrant qu’un bon équilibre entre performance perçue et sobriété énergétique est possible. Deux modèles de la série Gemma 3, le 27B et le 12B, se hissent même dans les dix premières places du classement. La "performance perçue" des modèles n'est en l'occurrence pas liée à leur taille. Plusieurs facteurs peuvent expliquer ce résultat : un style de réponse perçu comme plus agréable, le caractère souvent simple des questions posées sur compar:IA, ou encore une différence entre performance technique et préférence perçue. Pour plus de détails sur les types de questions posées, vous pouvez consulter l’article publié par Bunka AI consacré aux jeux de données compar:IA.
3. Une méthodologie transparente et reproductible
Le classement compar:IA repose sur le modèle de Bradley-Terry*, méthode statistique largement répandue pour convertir des votes binaires en classement probabiliste. Chaque duel entre deux modèles correspond à une comparaison binaire : le modèle préféré remporte le duel et est considéré comme gagnant. Le modèle Bradley Terry permet de calculer l'incertitude associée à chaque score: les scores sont calculés par maximum de vraisemblance et accompagnés d'intervalles de confiance à 95 %, obtenus par bootstrap (plus de 1 000 ré-échantillonnages aléatoires).
Cette approche garantit que le classement reflète non seulement une moyenne de préférences, mais aussi le degré d'incertitude lié à chaque modèle. Les modèles ayant reçu un nombre insuffisant de votes ou présentant une incertitude trop élevée sont exclus du classement.
Les calculs peuvent être reproduits et vérifiés publiquement.
Les données utilisées sont disponibles sous licence Etalab 2.0 sur data.gouv.fr et Hugging Face :
- ministere-culture/comparia-votes : votes binaires issus des duels ;
- ministere-culture/comparia-reactions : réactions (likes/dislikes) sur chaque réponse.
Un notebook Jupyter permet à toute personne intéressée de recalculer les scores à partir des données publiques, dans une logique de science ouverte et de communs numériques.
Fonctionnement simplifié
Chaque utilisateur vote pour un modèle entre deux propositions à l'aveugle
L'ensemble des votes crée une "matrice de duels" : qui a battu qui, combien de fois
Le modèle Bradley-Terry permet d'estimer la probabilité que chaque modèle soit préféré à un autre
Ces probabilités génèrent un score unique pour chaque modèle, d'où le classement.
Maximum de vraisemblance et intervalle de confiance : nous ré-échantillonnons 1 000 fois l'ensemble des votes, recalculons les scores à chaque fois, puis extrayons les 2,5e et 97,5e percentiles pour construire un intervalle de confiance à 95 %. Résultat : certains modèles ont des positions solides et stables dans le classement (intervalle de confiance réduit), d'autres restent proches de concurrents et ont une place plus volatile dans le classement (intervalle de confiance large).
NB: Nous avons testé l'algorithme Elo (utilisé notamment aux échecs) avant de choisir le modèle Bradley Terry pour calculer le score de satisfaction. L'algorithme Elo suppose une évolution des performances dans le temps alors que dans le cas de la comparaison de modèles de langage, les modèles ne changent pas une fois déployés.
4. Limites et perspectives d’évolution
Nature des votes et biais d’échantillonnage
Le classement reflète les préférences des utilisateurs de compar:IA, sans collecte de données socio-démographiques. Aucune information n’est disponible sur leur âge, leur expertise ou leur contexte d’usage. Ces votes ne constituent donc pas un échantillon représentatif de la population française, mais une expression collective non profilée des préférences des utilisateurs de la plateforme.
De plus, le classement repose sur des préférences subjectives, non sur la factualité des réponses. Certains styles de réponse — chaleureux, concis, ou imagés — peuvent influencer la perception positive d’un modèle, indépendamment de la qualité factuelle ou de la pertinence de la réponse.
Enfin, la nature binaire du vote (choix entre A et B) limite la nuance des préférences exprimées.
Complémentarité avec d’autres évaluations
Le classement compar:IA doit être lu comme une photographie des préférences exprimées et est complémentaire à d’autres formes d’évaluation, notamment les évaluations factuelles (mesurant la justesse des réponses), les évaluations techniques (portant sur la latence, la robustesse ou le coût financier et énergétique) et les analyses thématiques, ciblant des domaines d’usage (programmation, traduction, création, analyse de données…). Ces approches combinées permettraient d’obtenir une vision plus complète et équilibrée des performances réelles des modèles.
Pistes d’approfondissement
Plusieurs pistes d’évolution sont identifiées pour renforcer la robustesse du classement et enrichir son interprétation.
Sous-classements thématiques par type de tâche (rédaction, code, création, traduction) pour mieux refléter les usages spécifiques.
Analyse des préférences selon la complexité des questions, afin de distinguer les modèles performants sur les tâches simples ou complexes.
Profilage volontaire et anonymisé des utilisateurs (âge, langue, expertise) pour mieux comprendre les biais d’échantillonnage, dans le respect du RGPD.
Ouverture européenne du classement, permettant de comparer les préférences selon les langues et les contextes culturels. La plateforme comparIA est actuellement en cours d'extension à trois nouveaux langages (le suédois, le danois et le lituanien). Une fois suffisamment de votes collectés, le classement actuel pourra être décliné selon les différentes langues.
Évaluation complémentaire par des experts, sur un ensemble restreint de questions, pour mesurer la factualité et comparer ces résultats aux préférences du grand public.
Conclusion
Le classement compar:IA constitue l'un des premiers classement participatif, ouvert et transparent des modèles d’intelligence artificielle conversationnelle en France.
Ce dispositif s’inscrit dans une démarche de transparence vis à vis des utilisateurs et de démocratisation de l’évaluation des IA.Il s’agit moins de désigner les meilleurs modèles que de rendre visibles les préférences collectives, d’encourager la diversité des modèles et de sensibiliser à leur impact environnemental.
Ce classement ne doit pas être interprété isolément. Il complète d’autres approches techniques, factuelles et énergétiques, et vise à alimenter un débat public éclairé sur les enjeux éthiques associés à l'intégration des IA génératives dans nos pratiques sociales individuelles et collectives, personnelles et professionnelles.
Remerciements
Avant publication, nous avons présenté en avant-première ce classement lors de divers événements et recueilli les retours de nos partenaires et de plusieurs éditeurs de modèles d’IA. Un grand merci à la DINUM, à l’Atelier Numérique du ministère de la Culture, ainsi qu’à nos partenaires internationaux en Suède et au Danemark, à Datactivist, à l’Université Dauphine-PSL, au CIAN, à Make.org, et aux équipes de Meta, Cohere, Liquid AI, AI21 et bien d’autres pour leurs retours et suggestions.
Si vous souhaitez partager des retours ou des idées pour la suite, n'hésitez pas à nous écrire à l'adresse: contact@comparia.beta.gouv.fr. Tous les messages reçus à cette adresse sont lus par l’équipe compar:IA.