Quelles sont les défauts de ChatGPT-5 ? Le point complet sur ses failles et ses faiblesses

La sortie tant attendue de GPT-5 est arrivée le 7 août dernier. L’occasion pour les utilisateurs de découvrir les promesses, mais aussi les premiers défauts de cette nouvelle version.

GPT-5 : des progrès tangibles, mais des réponses qui déçoivent

Malgré ses nombreuses promesses, en matière de mathématiques, de programmation ou de santé et l’introduction d’une architecture unifiée dotée d’un real-time router capable de rediriger automatiquement les requêtes vers la variante la plus adaptée, GPT-5 n’échappe pas aux critiques. Son lancement a été marqué par des bugs et une expérience utilisateur jugée fragmentée, nourrissant la perception d’une régression créative et stylistique, en particulier chez les utilisateurs fidèles à GPT-4o. Les griefs les plus fréquents portent sur un ton jugé froid ou impersonnel, des réponses moins développées qu’attendu et des restrictions d’accès qui limitent la flexibilité d’usage.

« Raisonnement mathématique : Fait encore des erreurs simples. Légères améliorations par rapport à GPT-4. Nécessite des instructions spécifiques pour résoudre correctement les problèmes difficiles.

Logique symbolique (puzzles ARC) : Score faible. Moins bon que des modèles comme Grok 4 sur les énigmes de raisonnement général.

Raisonnement de bon sens : Éprouve des difficultés avec la logique de base, sauf s’il est incité à « penser étape par étape ». Pas de progrès majeur par rapport à GPT-4.

Précision factuelle : Continue à produire des hallucinations. Invente des noms, compte mal les lettres, invente des détails à moins d’être guidé avec précision.

Génération de code : Meilleurs scores aux tests de référence, mais échoue sur des projets complexes. Difficultés avec la gestion d’état, l’intégration et la coordination.

Bilan général : Les progrès sont réels mais limités. Sur certains tests, il est en retrait par rapport aux concurrents. Reste fragile sans indications précises. » – medium.com

De très nombreux utilisateurs ont d’ailleurs exprimé leur frustration sur Reddit avec un fil nommé « GPT‑5 c’est horrible ». Preuve de la déception générée par GPT-5, selon le classement SimpleBench publié le 8 août 2025, quelques heures seulement après la sortie du dernier modèle. GPT‑5 pointe à la cinquième place, derrière Gemini 2.5 Pro et Grok 4 et loin du niveau humain estimé.

Classement SimpleBench. — Classement SimpleBench

Des failles lors du lancement du real-time router

Autre point au critiqué, le real‑time router, censé diriger chaque requête vers la version la plus appropriée parmi les différents sous-modèles internes, selon la nature de la tâche demandée. L’outil a connu des dysfonctionnements lors de son lancement, ce qu’a admis Sam Altman dans la foulée. Sur le forum Reddit où il répond directement aux utilisateurs, le PDG d’Open AI explique :

« GPT-5 paraîtra plus intelligent à partir d’aujourd’hui, Hier (jour du lancement), nous avons eu un incident grave et le commutateur est resté hors service pendant une partie de la journée, ce qui a rendu GPT-5 bien plus stupide ».

Certains regrettent la disparition (temporaire) des modèles précédents comme GPT-4o (et certaines variantes de test internes), ce qui a frustré une partie des utilisateurs. Sam Altman a depuis indiqué sur son compte X qu’un retour à GPT‑4o pour les utilisateurs Plus était à l’étude. Une stratégie qui pourrait permettre à Open AI de ne pas perdre trop d’utilisateurs au moment ou d’autres intelligences artificielles continuent de se développer.

GPT-5 rollout updates:

*We are going to double GPT-5 rate limits for ChatGPT Plus users as we finish rollout.

*We will let Plus users choose to continue to use 4o. We will watch usage as we think about how long to offer legacy models for.

*GPT-5 will seem smarter starting…
— Sam Altman (@sama) August 8, 2025

Elon Musk encense Grok 4 Heavy et le compare à GPT-5

Lancé par xAI, Grok 4 Heavy qu’Elon Musk décrit comme « l’IA la pluplus intelligente du monde » se distingue par une architecture multi-agents qui permet à plusieurs sous-modèles de collaborer pour résoudre des tâches complexes. Sur le benchmark Humanity’s Last Exam, qui évalue les connaissances académiques et les capacités de raisonnement, il atteint 44,4 % avec utilisation d’outils, contre 26,9 % pour Gemini 2.5 Pro et 24,9 % pour o3, comme le rappelle la revue Scientific American. Sur le concours mathématique AIME25, il décroche un score parfait de 100 % comme le rapporte plusieurs médias spécialisés comme Beebom. Selon des tests indépendants, GPT-5 obtiendrait un résultat de 94,6%. Fidèle à son style provocateur, Elon Musk s’est amusé à comparer sur X, Grok 4 Heavy et GPT-5, en affirmant que Grok 4 Heavy était meilleur que GPT-5.

Bottom line though:

Grok 4 Heavy was smarter 2 weeks ago than GPT5 is now and G4H is already a lot better.

Let that sink in. https://t.co/BrggsEwnuz
— Elon Musk (@elonmusk) August 7, 2025

L’intelligence artificielle d’Elon Musk se singularise par rapport à ses concurrents sur un raisonnement avancé et une originalité de ton qui tranche avec les modèles plus formels. En revanche, ses limites incluent une vitesse d’exécution plus lente, un coût élevé (environ 300 $/mois) et plusieurs controverses liées à des propos non modérés, relevées par TechCrunch et TechRadar.

GPT-5 vs Grok 4 Heavy : qui est le meilleur ?

On a voulu comparer les différences entre les deux intelligences artificielles et si l’affirmation provocatrice d’Elon Musk correspondait aux données disponibles. Voici donc un tableau comparatif entre les deux concurrents.

Critère	GPT-5	Grok 4 Heavy
Architecture	Unifiée avec routage intelligent, 256 K tokens, personnalités	Multi-agents collaboratifs, outils intégrés
Benchmarks	SWE-Bench : 74,9 % ; AIME : 94,6 % ; HealthBench : 46,2 %	Humanity’s Last Exam : 44,4 % ; AIME25 : 100 %
Style / créativité	Stable, ton parfois jugé froid	Ton provocateur, créativité forte, controverses modération
Accessibilité	gratuit pour l’usage de base, avec une API facturée selon le volume de tokens (tarification officielle disponible sur le site d’OpenAI.	300 $/mois, usage niche haut de gamme

Sur la base des benchmarks publiés et des retours utilisateurs, GPT-5 se démarque par sa polyvalence et sa sécurité renforcée, tandis que Grok 4 Heavy surpasse GPT-5 sur certains tests de raisonnement pur comme Humanity’s Last Exam ou AIME25.

En l’absence d’AGI (Intelligence Artificielle Générale), aucun modèle n’est alors universellement meilleur que l’autre. Dans ce cas, la meilleure est celle correspondant le plus à vos priorités (sécurité créativité, prix), votre environnement (professionnel, éducatif ou environnemental) et votre style de travail (préférence de ton, niveau de détail attendu). Et vous que pensez-vous de GPT-5 ? Préférez-vous Grok 4 Heavy ou une autre IA à celle d’Open AI ? Dites-le-nous dans les commentaires.

Certains liens de cet article peuvent être affiliés.

Quelles sont les défauts de ChatGPT-5 ? Le point complet sur ses failles et ses faiblesses

GPT-5 : des progrès tangibles, mais des réponses qui déçoivent

Des failles lors du lancement du real-time router

Elon Musk encense Grok 4 Heavy et le compare à GPT-5

GPT-5 vs Grok 4 Heavy : qui est le meilleur ?

NEWSLETTER