Une équipe conjointe de l'université de Cambridge et de Google DeepMind publie un cadre psychométrique appliquant la théorie des « Big Five » aux grands modèles de langage (LLM). Les chercheurs montrent que ces modèles peuvent non seulement imiter des traits de personnalité identifiables, mais aussi que ces traits sont mesurables, cohérents et modulables par la conception d'invites. Les données, les outils et le code sont rendus publics afin de permettre des audits indépendants.
Contexte et méthode
Pour évaluer la « personnalité » des modèles, l'équipe a adapté des instruments de la psychologie humaine : le NEO révisé de 300 questions et une version courte du test des Big Five (ouverture, conscienciosité, extraversion, agréabilité, névrosisme). Plutôt que d'entrer l'ensemble des questions en une seule fois, les chercheurs ont multiplié les invites répétées afin de réduire les interférences entre réponses et d'améliorer la qualité des mesures. Dix‑huit modèles populaires ont été testés, dont des modèles instruits à grande échelle comme GPT‑4o.
Résultats et validité
Les résultats indiquent une validité de construction : pour les grands modèles instruits, les scores sont cohérents entre différents passages de test et corrèlent avec des comportements observables sur des tâches pratiques, par exemple la rédaction ou la publication sur les réseaux sociaux. En revanche, les modèles plus petits ou sans réglage instructionnel montrent une stabilité nettement moindre.
Les chercheurs démontrent également qu'il est possible de modifier chaque trait sur une échelle à neuf niveaux par la conception des invites. Par exemple, une invite visant une extraversion élevée produit des textes plus sociables et engagés, tandis qu'une augmentation du névrosisme donne lieu à un ton plus émotionnellement instable. Ces manipulations convergent avec l'idée que la « personnalité » d'un modèle n'est pas une caractéristique fixe, mais un comportement façonnable par l'utilisateur et le concepteur.
Enjeux éthiques et sécuritaires
La capacité à façonner la personnalité apparente d'un agent conversationnel soulève des questions concrètes. Un chatbot paramétré pour inspirer davantage de confiance ou d'empathie peut être plus persuasif, ce qui ouvre la voie à des usages malveillants : manipulation de l'opinion, amplification de la désinformation, exploitation de la confiance des utilisateurs. Les auteurs alertent sur ces risques et estiment qu'avant d'engager une réglementation, il est nécessaire d'établir des critères scientifiques pour mesurer et contrôler ces traits.
Pour faciliter des évaluations indépendantes, les jeux de données, les outils d'évaluation et le code ont été publiés en open source. L'étude paraît dans la revue Nature Machine Intelligence et a bénéficié de financements publics, notamment du UKRI et d'organismes britanniques de recherche.
Limites et points à vérifier
Plusieurs éléments méritent prudence et vérification complémentaire. Il reste à établir à quel point ces résultats se généralisent aux déploiements commerciaux réels et aux versions propriétaires des modèles. On doit aussi mieux comprendre la durabilité des réglages de personnalité dans le temps et lors d'interactions longues ou multi‑agents. Enfin, l'effet de ces traits sur des populations diverses et leur capacité à influencer des comportements réels nécessitent des audits supplémentaires et des évaluations éthiques approfondies.
À retenir
- Les chercheurs de Cambridge et Google DeepMind ont adapté le cadre des Big Five pour évaluer 18 LLM et publient leur méthodologie et leurs données.
- Les grands modèles instruits montrent des scores de personnalité cohérents et prédictifs de comportements concrets ; les petits modèles sont moins stables.
- La conception d'invites permet de moduler chaque trait jusqu'à neuf niveaux, rendant la « personnalité » des modèles actionnable.
- Ces capacités posent des risques éthiques et de sécurité liés à la manipulation et à la désinformation ; la publication des outils vise à faciliter des audits indépendants.
- Des incertitudes subsistent quant à la généralisation des résultats aux systèmes déployés et aux effets sur des interactions réelles.
Article amélioré avec l'IA - Article original