Llama 4 : Meta au cœur d’une controverse sur l’évaluation de son intelligence artificielle

0
167

Loin de l’euphorie attendue, le lancement du modèle Llama 4 par Meta, le 5 avril 2025, s’est transformé en sujet de discorde dans le microcosme de l’intelligence artificielle. Derrière la façade éclatante des performances affichées, une polémique enfle : Meta aurait orienté les résultats d’évaluation pour hisser artificiellement son modèle au sommet des classements.

Llama 4, quatrième génération du grand modèle de langage développé par Meta, se décline en trois versions : Scout, Maverick et Behemot, chacune reposant sur une architecture sophistiquée d’experts activés dynamiquement. Avec des chiffres impressionnants (jusqu’à 2 000 milliards de paramètres), la promesse semblait claire : dominer la concurrence. Sur LMArena, l’arène des benchmarks communautaires, Llama 4 Maverick se targuait même de surpasser GPT-4o d’OpenAI, Gemini 2.0 Flash de Google, et DeepSeek v3.1. Du jamais vu.

Mais cette suprématie s’est rapidement vue entachée d’un soupçon. La version de Llama 4 Maverick utilisée pour les tests – 03-26-Experimental – n’était pas celle mise à disposition du public. Elle avait été spécifiquement optimisée pour les échanges conversationnels et ajustée pour maximiser la perception humaine de qualité. Ce détail, crucial, n’avait pas été clairement communiqué. Résultat : la communauté s’est sentie dupée.

L’équipe de LMArena n’a pas tardé à réagir, dénonçant publiquement le manque de transparence de Meta et annonçant une refonte de ses politiques de classement afin de garantir des évaluations plus justes et reproductibles. L’affaire rappelle tristement certaines pratiques observées dans l’industrie du smartphone, où des fabricants trafiquent les versions testées pour briller dans les benchmarks.

Face à la tourmente, Meta a tenté d’éteindre l’incendie. Ahmad Al-Dahle, responsable de la division IA générative, et Yann Le Cun, figure de proue de l’IA chez Meta, ont tous deux plaidé la bonne foi. Selon eux, les modèles ont été déployés dès qu’ils étaient techniquement prêts, ce qui expliquerait les écarts observés. Ils réfutent toute tentative de manipulation ou d’entraînement orienté vers les tests.

Reste une question de fond que cette affaire remet cruellement au centre : les benchmarks actuels sont-ils fiables ? Peuvent-ils encore servir de repères pertinents dans une industrie où la vitesse de publication prime souvent sur la rigueur scientifique ? Même Andrej Karpathy, ancien responsable IA chez Tesla, reconnaissait récemment ne plus savoir vers quels indicateurs se tourner.

Ce scandale autour de Llama 4 met en lumière une crise plus profonde : celle de l’évaluation elle-même. Dans une course aussi frénétique que celle de l’IA générative, où chaque modèle est un coup d’éclat médiatique, il devient vital de repenser les outils de mesure et de poser les bases d’une transparence véritable.

Pour rester à la pointe de l’actualité sur l’intelligence artificielle, suivez TekTek sur nos différents réseaux :

Twitter/X : @iam_tektek

Threads : @iam_tektek

Chaîne WhatsApp : TekTek sur WhatsApp

Partager

Comments are closed.