Le 17 novembre 2025, le laboratoire xAI a présenté Grok 4.1, une nouvelle version de son modèle de génération de texte qui, selon l’éditeur, renforce l’expressivité et l’intelligence émotionnelle tout en maintenant la « précision cognitive » des versions précédentes. Les premiers résultats publiés mettent en avant des classements élevés sur plusieurs mesures humaines et automatisées, ainsi qu’une préférence utilisateur notable lors de tests en production.
Contexte et méthode
xAI explique que Grok 4.1 repose sur la même infrastructure de « reinforcement learning » à grande échelle qui a servi pour Grok 4, mais appliquée cette fois à l’optimisation du style, de la personnalité, de l’utilité et de l’alignement. L’équipe indique également avoir déployé de manière discrète des versions préliminaires auprès d’utilisateurs pour mesurer les préférences en situation réelle.
Ces précisions renvoient à deux axes de travail : d’une part l’ajustement du comportement linguistique et de la cohérence de personnalité, d’autre part la réduction des réponses erronées ou « hallucinations », résultat que xAI met en avant. Il s’agit toutefois d’affirmations de l’éditeur, à considérer comme des éléments à vérifier au fil du déploiement.
Résultats et classements
Sur le classement LMArena Text, fondé sur des évaluations à l’aveugle par des juges humains, Grok 4.1 Thinking est présenté en première place avec 1483 points, tandis que Grok 4.1 occupe la deuxième position avec 1465 points. Ces scores placent les deux variantes en tête du palmarès testé.
Par ailleurs, Grok 4.1 domine aussi l’EQ‑Bench, un outil de mesure des capacités d’intelligence émotionnelle, et figure parmi les trois premiers modèles évalués sur le test Creative Writing v3. En parallèle, xAI signale que Grok 4.1 est préféré 64,78 % du temps par rapport au modèle de production précédent lors de tests en trafic réel.
Ce que cela change pour les utilisateurs et les développeurs
Si ces résultats se confirment, Grok 4.1 pourrait améliorer l’expérience des applications centrées sur la conversation, l’accompagnement et la création de contenu : une écriture jugée plus « agréable à converser » et une sensibilité émotionnelle accrue facilitent des interactions perçues comme plus naturelles. Pour les développeurs, l’optimisation du style et de la personnalité ouvre la voie à des personnalisations plus fines selon les usages (assistant, storytelling, rédaction assistée).
La mention d’une baisse des hallucinations, si elle se vérifie à large échelle, aurait une importance pratique pour des applications nécessitant une information fiable. Reste que l’évaluation de la fiabilité dépendra de tests indépendants et d’une observation prolongée en conditions d’usage variées.
Aspects à surveiller
Plusieurs points méritent attention au-delà des promesses initiales : la reproductibilité des résultats sur des jeux de données externes, la robustesse face à des requêtes adverses et la manière dont l’optimisation de la personnalité peut influencer le comportement du modèle dans des contextes sensibles.
Ce qui reste à confirmer
- La persistance des gains annoncés (créativité, intelligence émotionnelle, réduction des hallucinations) lors d’évaluations indépendantes et sur le long terme.
- L’ampleur et le calendrier d’un éventuel déploiement international, ainsi que les modalités d’accès pour les développeurs et entreprises.
- Des informations contradictoires ont circulé concernant une levée de fonds importante pour xAI ; une annonce rapportée par certains médias a été démentie publiquement par Elon Musk, ce qui laisse la situation financière à clarifier.
À retenir
- Grok 4.1, dévoilé par xAI le 17 novembre 2025, cible une écriture plus créative et une intelligence émotionnelle renforcée.
- Sur LMArena Text, Grok 4.1 Thinking et Grok 4.1 occupent les deux premières places, avec 1483 et 1465 points respectivement.
- xAI affirme une baisse des hallucinations et une préférence utilisateur de 64,78 % en tests de production.
- Les gains s’expliqueraient par l’utilisation d’une infrastructure de reinforcement learning pour optimiser style, personnalité, utilité et alignement.
- Des vérifications indépendantes et une observation continue seront nécessaires pour confirmer l’impact réel et la robustesse du modèle.