Comment fonctionne le benchmark AGI de Google ?

Le benchmark AGI de Google DeepMind mesure l’IA par profils cognitifs, pas par note unique. L’intérêt est simple : repérer les vraies forces, les failles cachées et les risques de tests contaminés avant de confondre performance de benchmark et intelligence générale.

Pourquoi un score unique trompe-t-il ?

Un score unique trompe parce qu’il agrège des capacités très différentes et masque les zones faibles d’un modèle d’IA.

Un benchmark à métrique unique donne une lecture confortable : un modèle passe de 72 à 84, donc il “progresse”. Le problème, c’est que cette moyenne écrase les écarts. Un modèle peut réussir des questions de droit, échouer sur de la logique élémentaire, bien résumer un texte court, puis perdre le fil dès que l’instruction devient longue ou ambiguë.

C’est ce que l’étude de Harvard Business School et Boston Consulting Group, menée par Dell’Acqua et al. en 2023, appelle la frontière irrégulière, ou jagged frontier. Avec GPT-4, les consultants ont produit en moyenne 12,2 % de tâches en plus, 25,1 % plus vite, avec une qualité évaluée environ 40 % supérieure sur certaines tâches. Mais quand la tâche sortait de la zone de compétence du modèle, leur probabilité de produire une bonne réponse baissait de 19 points. Autrement dit : l’IA aide beaucoup dans certaines zones, puis devient fragile sans prévenir.

Cette idée est centrale pour parler d’AGI, pour Artificial General Intelligence. Une AGI désigne une intelligence artificielle générale capable d’exécuter une large variété de tâches cognitives, avec robustesse, adaptation et transfert entre contextes. Ce n’est pas simplement un modèle qui brille sur un test isolé.

Même les benchmarks sérieux restent concernés. MMLU, pour Massive Multitask Language Understanding, proposé par Hendrycks et al. en 2021, évalue les modèles sur 57 domaines, dont les mathématiques, l’histoire, le droit ou la médecine. C’est utile, mais un score global MMLU ne dit pas précisément où le modèle est fiable, ni où il casse.

Un autre risque vient de la contamination des jeux de test. Si des questions exactes, ou très proches, ont été vues pendant l’entraînement, le score mesure moins la capacité générale que la mémorisation ou la familiarité statistique. Le modèle peut alors sembler raisonner, alors qu’il reconnaît surtout des motifs déjà rencontrés.

Critère	Score unique	Évaluation multidimensionnelle
Lisibilité	Très simple à lire.	Plus dense, mais plus informative.
Précision du diagnostic	Faible, car les faiblesses sont moyennées.	Élevée, car les capacités sont séparées par tâche.
Risque de surinterprétation	Fort, surtout si le score est utilisé comme preuve d’intelligence générale.	Plus faible, car les limites restent visibles.
Utilité pour choisir un modèle en production	Limitée, sauf pour un premier tri.	Forte, car elle montre le comportement réel selon vos cas d’usage.

Que mesure le cadre de DeepMind ?

Le cadre de Google DeepMind mesure un profil cognitif en comparant les performances d’un modèle à une base humaine moyenne normalisée à 1.0.

Le point important, c’est qu’il ne cherche pas seulement à produire une note unique du type “ce modèle est meilleur que cet autre”. Il évalue plusieurs dimensions cognitives inspirées de la psychologie humaine, c’est-à-dire différentes capacités mentales observables : percevoir une information, sélectionner ce qui compte, garder des éléments en mémoire pendant une tâche, etc.

Quelques termes méritent d’être posés simplement.

Baseline signifie point de comparaison. Ici, la baseline est le niveau humain moyen, fixé à 1.0.
Normalisation signifie que les scores sont ramenés sur une échelle commune. Cela permet de comparer des capacités différentes sans mélanger des unités incompatibles.
Profil cognitif signifie ensemble de scores par capacité. Un modèle peut donc être très fort sur une dimension et plus faible sur une autre.

La lecture des scores devient alors assez directe.

Score	Interprétation
Inférieur à 1.0	Performance sous le niveau humain moyen sur la dimension concernée.
Proche de 1.0	Performance comparable à la base humaine moyenne.
Supérieur à 1.0	Performance au-dessus de cette base humaine moyenne.

Le cadre mentionne dix dimensions cognitives. Les informations disponibles ici détaillent surtout les trois premières : perception, attention sélective et mémoire de travail. Les dimensions 4 à 10 ne doivent pas être inventées ni reprises comme référence opérationnelle sans vérification dans la publication complète de DeepMind.

Cette approche est plus utile pour les équipes produit, data, IA et automatisation qu’un classement global. Elle aide à choisir un modèle selon un usage réel : lecture d’image, traitement de documents longs, analyse audio bruitée, extraction d’informations dans des PDF, ou suivi d’instructions complexes sur plusieurs étapes.

Deux modèles peuvent avoir le même score moyen global. Pourtant, le premier peut être meilleur en perception visuelle, donc plus adapté au contrôle qualité sur images, tandis que le second peut être plus fiable en attention sur contexte long, donc meilleur pour analyser des contrats ou des tickets support volumineux. En production, ce détail change tout : on ne choisit pas le modèle “le plus intelligent” en général, mais celui dont le profil cognitif correspond au problème à résoudre.

Quelles capacités sont déjà détaillées ?

Les capacités détaillées sont la perception, l’attention sélective et le début de la mémoire de travail. Ces trois dimensions ne prouvent pas qu’un modèle “comprend” comme un humain, mais elles testent des briques utiles pour évaluer sa robustesse dans des situations moins propres que les démonstrations marketing.

La perception mesure la capacité d’un modèle à interpréter des signaux sensoriels, par exemple une image, une vidéo ou un fichier audio. Un test peut demander de reconnaître un objet partiellement masqué, de comprendre une scène dégradée ou d’analyser une voix avec du bruit de fond. La faille classique : un modèle multimodal peut être très solide sur une image statique bien cadrée, mais devenir fragile sur de l’audio bruité, des accents, une mauvaise compression ou une scène visuelle ambiguë. Côté business, cela compte pour le contrôle qualité visuel, l’analyse d’appels clients, la modération de contenus ou l’assistance terrain.

L’attention sélective mesure la capacité à filtrer les distractions, rester concentré sur les informations pertinentes et tenir sur une tâche longue. Le parallèle le plus connu côté humain est l’effet Stroop, décrit par John Ridley Stroop en 1935 : le cerveau doit inhiber une information évidente mais non pertinente. Pour un modèle, cela revient à ignorer des détails parasites dans un prompt, une conversation ou un document. Les modèles à long contexte progressent, mais plusieurs travaux, dont “Lost in the Middle” publié par Liu et al. en 2024, montrent que la performance peut baisser quand l’information utile est noyée dans un contexte long. En production, cela touche la recherche documentaire, les agents IA et l’analyse de contrats.

La mémoire de travail consiste à maintenir et manipuler temporairement des informations. Un modèle doit comparer plusieurs contraintes dans un prompt, suivre des variables dans un raisonnement ou conserver les éléments importants d’un échange long. La faille apparaît quand il oublie une contrainte initiale, mélange deux entités ou applique une règle au mauvais objet. Pour une entreprise, le risque est direct : mauvaise recommandation, automatisation incohérente, réponse client contradictoire.

Dimension	Ce qu’elle mesure	Exemple de test	Risque en production	Usage concerné
Perception	Interprétation de signaux visuels ou audio.	Identifier un objet masqué ou une voix bruitée.	Erreur sur données réelles dégradées.	Support vocal, inspection visuelle, modération.
Attention sélective	Filtrage des distractions et maintien de la priorité.	Trouver une information pertinente dans un long document.	Réponse influencée par du bruit contextuel.	Analyse documentaire, agents IA, conformité.
Mémoire de travail	Maintien temporaire et manipulation d’informations.	Suivre plusieurs contraintes dans un raisonnement.	Oubli de consignes ou confusion entre variables.	Automatisation métier, relation client, aide à la décision.

Comment l’utiliser en entreprise ?

En entreprise, ce type de benchmark sert à choisir un modèle selon le travail réel à réaliser, pas selon le classement marketing du moment. AGI signifie intelligence artificielle générale, c’est-à-dire la capacité théorique d’un système à gérer des tâches variées avec une forme de raisonnement transférable. Dans la pratique, votre sujet reste plus simple : est-ce que ce modèle fait correctement le travail, avec vos données, vos contraintes et vos risques ?

La méthode tient en quatre étapes.

Décrire les tâches IA avec précision : classification de tickets, extraction d’informations dans des PDF, analyse d’appels, génération de réponses client, contrôle qualité de contenus ou automatisation de workflows. Une tâche floue produit toujours une évaluation floue.
Rattacher chaque tâche à une ou plusieurs capacités cognitives : perception pour lire une image ou un document, attention sélective pour repérer l’information utile dans du bruit, mémoire de travail pour manipuler plusieurs éléments à la fois dans un raisonnement.
Tester les modèles sur des jeux internes propres, non publics et représentatifs. Un jeu de test interne est un ensemble d’exemples issus de vos vrais cas métier, annotés avec la réponse attendue.
Suivre les performances dans le temps avec des métriques métier. Une métrique métier mesure l’impact opérationnel, pas seulement un score technique.

Une évaluation hors contamination consiste à tester le modèle sur des données qu’il n’a probablement jamais vues pendant son entraînement. C’est indispensable, car un bon score sur des exemples publics peut refléter de la mémorisation plutôt qu’une vraie capacité à généraliser.

Un benchmark externe donne une orientation utile. Il ne remplace jamais une évaluation interne. La vérité opérationnelle vient de vos données, de vos langues, de vos formats, de vos erreurs fréquentes, de vos règles de conformité et du coût acceptable en cas de mauvaise réponse.

Les métriques à suivre doivent parler aux équipes métier : taux d’erreur critique, taux de réponses acceptées, temps gagné par dossier, coût par traitement, taux d’escalade humaine. Un modèle moins bien classé publiquement peut être meilleur chez vous s’il réduit les erreurs graves et s’intègre mieux dans le workflow.

Cas d’usage	Dimension cognitive prioritaire	Test recommandé	Signal d’alerte
Extraction de données PDF	Perception et attention sélective	Documents internes annotés, avec formats variés	Champs inventés ou valeurs déplacées
Support client	Mémoire de travail et raisonnement	Conversations réelles anonymisées	Réponses confiantes mais fausses
Analyse d’appels	Compréhension audio et synthèse	Transcriptions et enregistrements représentatifs	Oubli des objections ou des engagements
Automatisation de workflows	Planification et suivi d’instructions	Scénarios bout en bout avec cas limites	Action correcte au début, erreur en fin de chaîne

Quelles limites garder en tête ?

La principale limite est qu’un benchmark, même multidimensionnel, reste une approximation du comportement réel d’un système IA. Il mesure des performances sur des tâches définies, dans un cadre contrôlé, avec des critères choisis à l’avance. C’est utile, mais ce n’est pas la réalité complète.

Mesurer l’intelligence artificielle avec plusieurs dimensions cognitives est plus fin qu’un score unique. Un modèle peut être bon en raisonnement, moyen en planification, faible en mémoire longue ou instable dès que le contexte change. Mais cette granularité ne garantit pas tout le reste : la robustesse, c’est-à-dire la capacité à résister aux cas imprévus ; la sécurité, notamment face aux usages malveillants ; la conformité réglementaire ; l’explicabilité, donc la capacité à comprendre pourquoi une réponse est produite ; ou encore l’alignement avec vos objectifs métier.

Trois limites méritent d’être gardées en tête avant de tirer des conclusions trop rapides :

La contamination des données de test reste possible. Si un modèle a vu pendant son entraînement des exemples proches du benchmark, son score peut surestimer sa capacité réelle. Le rapport technique GPT-4 d’OpenAI, publié en 2023, mentionne explicitement ce risque pour certains jeux d’évaluation publics.
L’écart entre les tâches de laboratoire et les usages réels peut être important. Répondre à un problème isolé n’est pas la même chose que travailler dans un système d’information, avec des données incomplètes, des contraintes juridiques, des utilisateurs pressés et des erreurs coûteuses.
L’évolution rapide des modèles rend les classements fragiles. Un palmarès publié aujourd’hui peut devenir moins pertinent après une mise à jour de modèle, un changement de méthode d’évaluation ou l’arrivée d’un nouveau système.

Un point de prudence s’impose aussi sur les dimensions 4 à 10 du benchmark. Sans source primaire complète, c’est-à-dire sans document officiel détaillant précisément les définitions, les tâches et les méthodes de mesure, il vaut mieux ne pas les détailler artificiellement. Expliquer ce qui est vérifiable est plus solide que remplir les zones floues avec des suppositions.

Mauvaise question	Quel est le meilleur modèle ?
Meilleure question	Quel modèle échoue le moins sur ma tâche critique ?
Pourquoi c’est plus utile	Cette approche réduit les risques opérationnels, car elle part des erreurs qui coûtent vraiment cher : mauvaise décision, fuite de données, réponse non conforme, automatisation fragile.

L’évaluation cognitive ne remplace pas le jugement humain, elle le structure.

Alors, comment évaluer l’AGI sans se tromper ?

Le benchmark AGI de Google DeepMind va dans la bonne direction : il remplace la note unique par un profil cognitif plus exploitable. Cette approche aide à voir ce qu’un modèle sait vraiment faire, où il reste fragile et pourquoi un bon score moyen peut être trompeur. Pour un usage business, je retiens surtout une règle : partir des tâches réelles, relier chaque tâche aux capacités cognitives nécessaires, puis tester sur vos propres données. Le bénéfice est concret : choisir une IA plus fiable, réduire les erreurs cachées et investir dans les bons modèles.

FAQ

Qu’est-ce qu’un benchmark AGI ?
Un benchmark AGI est un cadre de test destiné à évaluer des capacités proches de l’intelligence générale artificielle. L’objectif n’est pas seulement de mesurer si un modèle répond juste à des questions, mais de comprendre ses capacités sur plusieurs dimensions cognitives comme la perception, l’attention ou la mémoire de travail.
Pourquoi une seule note ne suffit-elle pas pour évaluer une IA ?
Une seule note mélange des compétences différentes et peut cacher des faiblesses critiques. Un modèle peut être excellent sur des questions de connaissance, mais mauvais sur de longues instructions, de l’audio bruité ou des cas ambigus. Pour choisir un modèle en production, le détail compte plus que le score moyen.
Que signifie une baseline humaine à 1.0 ?
Une baseline humaine à 1.0 signifie que les scores du modèle sont normalisés par rapport à une performance humaine moyenne. Un score inférieur à 1.0 indique une performance plus faible que cette référence, un score proche de 1.0 une performance comparable, et un score supérieur à 1.0 une performance au-dessus de cette base.
Quels risques pose la contamination des jeux de test ?
La contamination apparaît quand un modèle a déjà vu, directement ou indirectement, des données proches du benchmark pendant son entraînement. Le score peut alors refléter une mémorisation ou une familiarité avec le test, plutôt qu’une vraie capacité de généralisation.
Comment utiliser ces benchmarks pour choisir un modèle IA ?
Le bon réflexe consiste à partir de vos cas d’usage : documents à analyser, conversations à traiter, images à comprendre, workflows à automatiser. Ensuite, vous reliez ces tâches aux capacités cognitives nécessaires et vous testez les modèles sur vos propres données. Le meilleur modèle est celui qui échoue le moins sur vos tâches critiques.

A propos de l’auteur

Je suis Franck Scandolera, expert et formateur en tracking avancé server-side, Analytics Engineering, automatisation No/Low Code avec n8n, intégration de l’IA en entreprise et SEO/GEO. J’accompagne des équipes sur des sujets où la mesure, la donnée et l’automatisation doivent produire des résultats fiables, pas seulement des démonstrations séduisantes. Responsable de l’agence webAnalyste et de l’organisme Formations Analytics, j’ai travaillé avec Logis Hôtel, Yelloh Village, BazarChic, la Fédération Française de Football ou Texdecor. Si vous voulez cadrer vos usages IA, vos évaluations ou vos automatisations, contactez-moi.

Franck Scandolera

⭐ Analytics engineer, Data Analyst et Automatisation IA indépendant ⭐

Ref clients : Logis Hôtel, Yelloh Village, BazarChic, Fédération Football Français, Texdecor…

Mon terrain de jeu :

Data Analyst & Analytics engineering : tracking avancé (GTM server, e-commerce, CAPI, RGPD), entrepôt de données (BigQuery, Snowflake, PostgreSQL, ClickHouse), modèles (Airflow, dbt, Dataform), dashboards décisionnels (Looker, Power BI, Metabase, SQL, Python).
Automatisation IA des taches Data, Marketing, RH, compta etc : conception de workflows intelligents robustes (n8n, App Script, scraping) connectés aux API de vos outils et LLM (OpenAI, Mistral, Claude…).
Engineering IA pour créer des applications et agent IA sur mesure : intégration de LLM (OpenAI, Mistral…), RAG, assistants métier, génération de documents complexes, APIs, backends Node.js/Python.