Anthropic a présenté Claude Opus 4.5 comme « son meilleur modèle pour le code, les agents et l’usage informatique ». Le modèle est disponible via les applications, l’API et les principaux clouds, avec un tarif annoncé à 5 $/25 $ par million de tokens. Les annonces portent à la fois sur des performances accrues en ingénierie logicielle, des améliorations de sécurité et de nouvelles commandes API destinées aux développeurs.

Performances revendiquées et mesures internes

Selon Anthropic, Opus 4.5 réalise des progrès notables sur des tests ciblés en programmation et en usage agentique. Sur le test SWE‑bench Verified, l’entreprise indique un score de 80,9 % contre 76,2 % pour un modèle concurrent mentionné. Sur l’agentic τ2‑bench, Opus 4.5 atteindrait 88,9 % face à 85,3 % pour le même concurrent. Des testeurs internes et des clients en accès anticipé rapportent une exécution des tâches plus fiable, une meilleure gestion de l’ambiguïté et des capacités de débogage multi‑étapes.

Anthropic a aussi passé le modèle à un examen interne chronométré, qui, d’après la société, place Opus 4.5 au‑dessus des candidats humains dans la limite des deux heures imparties. L’entreprise précise toutefois que cet exercice mesure des compétences techniques sous contrainte de temps et ne rend pas compte de l’aptitude au travail en équipe ou du jugement à long terme.

Sécurité, commandes API et maîtrise du coût

La sécurité fait l’objet d’un accent particulier dans les annonces. Anthropic affirme qu’Opus 4.5 est « plus difficile à piéger » par des attaques par injection de prompt que d’autres modèles de pointe ; ce type d’assertion figure dans la fiche système fournie par la société. De nouvelles commandes API sont également proposées, dont un paramètre effort permettant d’arbitrer vitesse et capacité du modèle. Selon Anthropic, en mode d’effort moyen, Opus 4.5 atteindrait les meilleures performances comparables à Sonnet 4.5 sur le SWE‑bench tout en consommant 76 % de tokens de sortie en moins, ce qui peut réduire la facture des usages intensifs.

Évolutions produits et conséquences pour les développeurs

Sur le plan produit, plusieurs intégrations sont citées comme élargies ou améliorées : Claude Code bénéficie d’un Plan Mode amélioré et de la prise en charge de sessions parallèles sur le bureau ; Claude pour Chrome est déployé auprès des utilisateurs Max ; l’accès à Claude pour Excel est étendu à plusieurs niveaux d’abonnement (Max, Team et Enterprise). Pour les niveaux Opus, Anthropic indique avoir levé certaines limites liées aux modèles et relevé les plafonds d’usage afin de faciliter l’emploi quotidien d’Opus 4.5.

Concrètement, ces évolutions peuvent changer la manière dont les équipes de développement intègrent l’assistance automatisée : on peut s’attendre à des générations de code plus fiables, à une meilleure intervention dans des workflows multi‑outils et à des économies de tokens lors d’utilisations répétées. Le contrôle du paramètre effort offre un levier opérationnel pour adapter latence et intensité de raisonnement selon les besoins.

Ce qui reste à confirmer

Plusieurs points nécessitent une validation indépendante avant de considérer ces affirmations comme établies :

  • la reproduction des scores annoncés par des évaluations externes et indépendantes,
  • l’évaluation à long terme de la robustesse face aux attaques de sécurité dans des environnements réels,
  • la pertinence des gains de productivité en contexte d’équipe et pour des tâches collaboratives ou de maintenance sur le long terme.

À retenir

  • Anthropic présente Claude Opus 4.5 comme une évolution ciblée sur le code, les agents et l’usage informatique.
  • La société annonce des scores supérieurs sur des tests internes de programmation et d’agentique, ainsi que des retours positifs de testeurs et clients précoces.
  • Opus 4.5 intégrerait des améliorations de sécurité et de nouvelles commandes API, dont un paramètre effort pour gérer compromis vitesse/capacité.
  • Des intégrations produit (desktop, Chrome, Excel) et des limites d’usage relevées visent à faciliter l’adoption par les développeurs.
  • Des validations indépendantes et des études à plus long terme sont nécessaires pour confirmer l’impact réel sur les pratiques de développement et la sécurité.