Avec le soutien du programme de subventions Accelerating Foundational Model Research (AFMR), une équipe de chercheurs de Microsoft et de ses institutions partenaires a développé une méthode d’évaluation des modèles d’IA capable de prédire et d’expliquer leurs faibles performances sur des tâches spécifiques, ce que les benchmarks actuels peinent à faire.
Dans un article intitulé « Une échelle générique pour une évaluation explicable et prédictive de l’IA », ils proposent une approche qui va au-delà des indicateurs de précision globale. Elle évalue les connaissances et les capacités cognitives requises pour accomplir une tâche et évalue les modèles en fonction de ces capacités.
ADeLe : Une approche par compétences pour l’évaluation des tâches
Ce cadre utilise la technique du niveau de désirabilité annoté (ADeLe) pour évaluer la difficulté des tâches des modèles d’IA en appliquant une échelle mesurant 18 capacités cognitives et de connaissances. L’évaluation de la difficulté repose sur une grille d’évaluation détaillée, initialement développée pour les tâches humaines et qui a fait ses preuves dans les modèles d’IA. En comparant les exigences des tâches et les capacités du modèle, ADeLe génère un profil de compétences qui non seulement prédit la performance, mais explique également la réussite ou l’échec d’un modèle en reliant les résultats à des forces ou des limites spécifiques.
Les 18 échelles reflètent les capacités cognitives fondamentales (par exemple, l’attention, le raisonnement), les domaines de connaissances (par exemple, les sciences naturelles ou les sciences sociales) et d’autres facteurs liés à la tâche (par exemple, la popularité d’une tâche sur Internet). Chaque tâche est notée de 0 à 5 en fonction de son niveau d’implication dans une compétence particulière. Par exemple, un problème mathématique simple peut obtenir un score de connaissances formelles de 1, tandis qu’un problème mathématique exigeant une expertise avancée peut obtenir un score de 5. La figure 1 illustre le processus complet, de l’évaluation des exigences des tâches à la génération d’un profil de compétences. Pour développer le système, l’équipe a analysé 16 000 exemples de 63 tâches issues de 20 benchmarks d’IA afin de créer une méthode de mesure unifiée applicable à un large éventail de tâches. L’article détaille comment les scores des 18 échelles universelles expliquent la réussite ou l’échec d’un modèle et comment ils prédisent la performance lors de l’exécution de nouvelles tâches dans des environnements familiers et inconnus.
Résultats de l’évaluation
L’équipe a utilisé ADeLe pour évaluer 20 benchmarks d’IA populaires et est arrivée à trois conclusions principales : 1) Les benchmarks d’IA actuels présentent des limites de mesure ; 2) Les modèles d’IA présentent des schémas différents de forces et de faiblesses selon les capacités ; 3) ADeLe peut prédire avec précision la réussite ou l’échec des systèmes d’IA dans de nouvelles tâches.
1. Détecter les failles cachées des méthodes de test d’IA
De nombreux tests d’IA populaires ne mesurent pas les indicateurs qu’ils prétendent mesurer ou ne couvrent qu’une difficulté limitée. Par exemple, le benchmark de l’examen de la fonction publique est conçu pour tester la capacité de raisonnement logique, mais il requiert également d’autres compétences telles que l’expertise et la métacognition. De même, TimeQA, conçu pour tester la capacité de raisonnement temporel, ne contient que des questions de difficulté moyenne, sans défis simples ou complexes.
2. Créer des profils détaillés de compétences en IA
L’équipe a créé des profils complets pour 15 programmes de Master en droit (LLM) à l’aide d’une échelle de notation de 0 à 5 points. Pour ces 18 compétences, elle a tracé une « courbe caractéristique du sujet » afin de montrer l’évolution du taux de réussite du modèle en fonction de la difficulté des tâches.
Elle a ensuite calculé le score de chaque compétence (le niveau de difficulté auquel le modèle a réussi à 50 %) et a utilisé ces résultats pour générer des graphiques radiaux montrant les forces et les faiblesses de chaque modèle à différentes échelles et niveaux, comme illustré à la figure 2. 3. Prédire la réussite et l’échec de l’IA
Le système a atteint une précision d’environ 88 % dans la prédiction des performances de modèles populaires tels que GPT-4o et LLaMA-3.1-405B, surpassant ainsi les méthodes traditionnelles. Cela permet de prédire les échecs potentiels avant le déploiement, ajoutant une étape importante à l’évaluation de la fiabilité des modèles d’IA.
Perspectives d’avenir
ADeLe peut être étendu aux systèmes d’IA multimodaux et intégrés et a le potentiel de devenir un cadre standardisé pour la recherche en IA, l’élaboration de politiques et l’audit de sécurité.
Dans un contexte où les progrès de l’intelligence artificielle générale dépassent les méthodes d’évaluation traditionnelles, ces travaux posent des bases opportunes pour améliorer l’efficacité de l’évaluation de l’IA.