bataille entre Anthropic et OpenAI

Un jour après une dispute publique entre OpenAI et Anthropic, les deux géants de l’intelligence artificielle ont publié deux nouveaux modèles haut de gamme qui battent de nouveaux records dans leurs catégories respectives. Anthropic a dévoilé Claude Opus 4.6 vers 18h40, OpenAI a riposté vingt minutes plus tard avec GPT-5.3-Codex pour les développeurs (la cible de Claude).

Le 5 février est un jour historique pour l’IA générative : deux nouveaux modèles flagships ont été publiés en même temps.

À gauche, Claude Opus 4.6 par Anthropic, nouveau meilleur modèle au monde à en croire les benchmarks publiés par son créateur (devant Gemini 3 Pro). À droite : GPT-5.3-Codex par OpenAI, qui précède l’annonce de GPT-5.3 pour le grand public, vraisemblablement imminente. Deux mises à jour majeures présentées comme les modèles de codage les plus puissants jamais créés. Bonus : le modèle ‘OpenAI serait le premier conçu… par une version antérieure de lui-même.

Claude Opus 4.6 : l’intelligence au service de la bureautique, Anthropic veut rivaliser avec Google et OpenAI

On attendait un nouveau modèle Sonnet, mais c’est finalement avec son flasghip Opus qu’Anthropic a ouvert les hostilités.

Avec Opus 4.6, l’entreprise cherche ce qu’elle qualifie de profondeur de raisonnement. Le modèle introduit le concept d’« Adaptive Thinking », qui lui permet de moduler son temps de réflexion (et donc son coût) en fonction de la complexité de la tâche. Il s’agit, à ce jour, du modèle le plus puissant jamais sorti par Anthropic.

https://twitter.com/claudeai/status/2019467372609040752?s=20

Sur le plan technique, Claude Opus 4.6 impressionne par sa capacité à gérer des contextes massifs : jusqu’à 1 million de tokens, un record. C’est un argument de poids pour des entreprises qui veulent analyser des bases de données entières : Claude monte en capacités.

Les benchmarks publiés par Anthropic montrent une nette progression sur les tâches concrètes :

Code (SWE-bench Verified) : 80,8 %, un score qui le place devant la plupart des modèles actuels sur la résolution de bugs réels.
Contrôle Ordinateur (OSWorld) : 72,7 %. Ce chiffre est crucial : il mesure la capacité de l’IA à utiliser une souris et un clavier virtuels pour naviguer dans des applications comme un humain.
Humanity’s Last Exam : Anthropic prend la première place devant Gemini 3 Pro avec un score de 40 % sans outils.

La system card d’Opus 4.6 est formelle : Claude a le nouveau meilleur modèle du marché. // Source : Anthropic

Anthropic déploie une autre nouveauté : « Agent Teams », qui se destine à Claude Code. Elle permet de faire collaborer plusieurs instances d’Opus 4.6 sur un même projet (l’un code, l’autre teste, le troisième documente) pour aller plus vite. Mais son intention semble aller au-delà du code : Anthropic veut séduire le grand public, comme en atteste sa publicité au Superbowl.

Pour aller plus loin

GPT-5.3-Codex : OpenAI monte en puissance pour tuer Claude Code

La réponse d’OpenAI ne s’est pas fait attendre : le créateur de ChatGPT a dévoilé GPT-5.3-Codex vingt minutes plus tard. Ce nouveau modèle spécialisé, intégré à l’interface Codex ou disponible pour les développeurs via l’API, est le plus avancé à ce jour pour le code. ChatGPT devra se contenter de GPT-5.2 pour l’instant, mais nul doute que GPT-5.3 est imminent pour le chatbot.

OpenAI revendique plusieurs percées majeures avec GPT-5.3-Codex :

Vitesse : GPT-5.3 est 25 % plus rapide que son prédécesseur.
Auto-amélioration : OpenAI révèle que les versions précoces de GPT-5.3 ont été utilisées pour déboguer et optimiser le modèle final, une boucle de rétroaction qui accélère le développement des modèles.

BenchmarkGPT-5.3-CodexClaude Opus 4.6 Terminal-Bench 2.0 77,3 % 65,4 % OSWorld (PC) 64,7 % (Verified) 72,7 % SWE-Bench 56,8 % (Pro) 80,8 % (Verified)

Avec GPT-5.3-Codex, OpenAI semble vouloir séduire les développeurs partis sur Claude Code… au moment où Anthropic veut séduire les utilisateurs de ChatGPT.

Cette double sortie marque un tournant pour l’industrie : l’IA n’est plus évaluée sur sa capacité à bien répondre mais sur sa capacité à réaliser plusieurs tâches complexes simultanément. La bataille devrait continuer de s’intensifier en février : du nouveau est attendu chez xAI, DeepSeek et Google. On peut aussi imaginer qu’Anthropic et OpenAI préparent d’autres mises à jour.

Toute l'actu tech en un clien d'oeil

Toute l’actu tech en un clin d’œil

Ajoutez Numerama à votre écran d’accueil et restez connectés au futur !

Installer Numerama

Tags: