Le 29 décembre, Naver Cloud a rendu publics deux modèles d'intelligence artificielle à code source ouvert destinés à faciliter la création d'agents capables d'opérer en contexte réel. Les deux modèles, HyperCLOVA X SEED 8B Omni et HyperCLOVA X SEED 32B Think, illustrent une stratégie axée sur l'intégration multi-sensorielle et la diversité des données plutôt que sur la seule augmentation de taille.

Qu'est‑ce que ces modèles apportent ?

HyperCLOVA X SEED 8B Omni est présenté comme un modèle « natif » omnimodal coréen : il apprend simultanément des textes, des images et de l'audio au sein d'une même architecture. Cette approche vise à placer le sens de ces différents flux d'information dans un espace commun, ce qui permet, selon Naver Cloud, de générer ou d'éditer des images à partir d'instructions textuelles tout en tenant compte du contexte visuel et sonore.

HyperCLOVA X SEED 32B Think combine des capacités de raisonnement et d'inférence avec la compréhension visuelle, le dialogue vocal et l'utilisation d'outils. L'objectif est d'offrir une expérience d'agent plus complète, capable de traiter des demandes complexes impliquant plusieurs modalités d'entrée et d'interagir avec des ressources externes pour résoudre des problèmes.

Stratégie de données et objectifs opérationnels

Naver Cloud, leader du projet national « AI fondation indépendante », met l'accent sur la diversité des données d'entraînement. L'entreprise indique vouloir aller au‑delà des corpus issus d'internet et incorporer des contextes du monde réel non numérisés, ainsi que des données spatiales locales. Selon l'éditeur, cette diversité vise à réduire certains biais et à rendre les modèles plus utiles dans des scénarios concrets, notamment dans la recherche, le commerce, la création de contenu, le secteur public et l'industrie.

La démarche affichée privilégie l'évolutivité et l'utilité pratique : la structure omnimodale, conçue dès le départ, faciliterait une montée en échelle vers des modèles spécialisés de tailles variées, mieux adaptés aux usages de terrain que l'addition purement paramétrique.

Performances et portée des évaluations

Des tests menés par l'organisme d'évaluation Artificial Analysis situeraient le modèle Think dans une fourchette de performances comparable à celle des grands modèles internationaux sur un ensemble de dix benchmarks couvrant connaissances, raisonnement complexe, codage et tâches de type agent. Les résultats sont particulièrement marqués pour la connaissance en coréen, la compréhension visuelle et les tâches d'agent, selon ces évaluations.

Par ailleurs, des essais mentionnés indiqueraient que le modèle Think a obtenu des résultats de premier rang aux épreuves nationales de 2025, avec des scores parfaits dans certaines matières. Naver Cloud souligne aussi que, contrairement à de nombreux modèles qui convertissent les entrées visuelles en texte avant traitement, Think peut interpréter des images directement pour résoudre des problèmes.

Ouverture et perspectives d'utilisation

Les deux modèles ont été publiés à code source ouvert, ce qui, d'après Naver Cloud, vise à encourager chercheurs et entreprises à expérimenter et à co‑construire des services locaux innovants. L'éditeur prévoit d'étendre progressivement ces modèles à des services concrets et de favoriser la création d'un écosystème « pour tous », axé sur l'utilité et l'intégration dans des services existants.

Limites et points à confirmer

Plusieurs éléments restent à préciser pour évaluer pleinement l'impact et l'utilisation pratique de ces modèles. Parmi les points non confirmés publiquement figurent :

  • la nature exacte des licences et des composants rendus publics (poids, code, données d'entraînement) ;
  • la composition détaillée et la provenance des jeux de données, notamment pour les données dites « non numérisées » et spatiales locales ;
  • la méthodologie complète des benchmarks cités et la comparabilité directe avec d'autres évaluations internationales ;
  • les calendriers précis de déploiement dans les différents secteurs visés et les conditions d'intégration en production.

À retenir

  • Naver Cloud a publié deux modèles HyperCLOVA X à code source ouvert visant des agents omnimodaux et de raisonnement.
  • Le modèle SEED 8B Omni apprend texte, image et audio dans une même architecture ; SEED 32B Think combine raisonnement, vision, voix et outils.
  • L'entreprise mise sur la diversité des données réelles et locales pour améliorer l'adaptabilité et réduire les biais.
  • Des évaluations externes situeraient Think dans la gamme des grands modèles mondiaux, avec de bonnes performances en coréen et en tâches d'agent.
  • Des informations clés restent à confirmer, notamment sur les licences, les données d'entraînement et les modalités de déploiement.

Article amélioré avec l'IA - Article original