Adobe, acteur majeur des logiciels, fait l’objet d’un recours collectif déposée au nom d’Elizabeth Lyon, auteure de l’Oregon, qui allègue que certains de ses ouvrages figurent dans les données ayant servi au pré‑entraînement d’un modèle de la firme. L’affaire relance les questions sur la provenance des textes utilisés pour entraîner les modèles de langage et sur les obligations des entreprises vis‑à‑vis des créateurs de contenus.

Les faits contestés et la chaîne de données

La plainte soutient que des exemplaires des guides d’Elizabeth Lyon figuraient dans un ensemble de données traité et exploité pour alimenter SlimLM, décrit par Adobe comme une série de petits modèles de langage conçus pour l’aide documentaire sur appareils mobiles. Adobe a indiqué que SlimLM avait été pré‑entraîné sur SlimPajama‑627B, présenté comme un « jeu de données open source, multi‑corpus et dédupliqué » publié par Cerebras en 2023.

Selon la plainte, SlimPajama serait une copie dérivée du jeu RedPajama et contiendrait le corpus Books3, un ensemble de 191 000 livres déjà au cœur de litiges antérieurs. C’est cette inclusion supposée qui, d’après la plaignante, entraînerait l’utilisation non autorisée de ses œuvres dans le processus d’entraînement du modèle.

Un paysage juridique déjà chargé

Cette action s’inscrit dans une série de recours similaires visant plusieurs acteurs technologiques. Des plaintes comparables ont été portées contre des entreprises majeures du secteur, accusées d’avoir employé des textes protégés sans consentement pour entraîner leurs systèmes d’IA. Par ailleurs, un règlement récent impliquant Anthropic a abouti au versement d’un montant important aux auteurs plaignants, acte souvent présenté comme un point d’inflexion dans ces litiges.

La multiplication de ces actions judiciaires met en lumière la tension entre les besoins techniques des développeurs (obtenir des volumes massifs de données textuelles pour entraîner des modèles) et les droits des auteurs et éditeurs. Les recours peuvent viser non seulement l’indemnisation des victimes, mais aussi des mesures pour encadrer la collecte et l’utilisation des données.

Conséquences possibles pour les pratiques et le marché

Si la plainte devait aboutir à des décisions contraignantes, plusieurs conséquences sont envisageables pour l’écosystème : renforcement des obligations de transparence sur l’origine des ensembles de données, augmentation des accords de licence avec les ayants droit, ou adaptations techniques visant à filtrer ou exclure des sources protégées. À l’inverse, une issue favorable aux entreprises pourrait maintenir l’état actuel des pratiques, au moins temporairement.

Quoi qu’il en soit, le coût financier et réputationnel lié à ces procédures incite déjà certains acteurs à reconsidérer leurs pipelines de données. Les éditeurs et créateurs réclament une reconnaissance et une rémunération adaptées lorsque leurs œuvres contribuent à des systèmes commerciaux.

Aspects éthiques et réglementaires

  • L’affaire pose des questions d’éthique sur l’utilisation de contenus protégés sans consentement explicite.
  • Elle souligne le besoin d’un cadre juridique plus clair sur la collecte massive de textes pour l’IA.
  • Elle met aussi en lumière l’équilibre à trouver entre innovation technologique et protection des droits culturels et économiques des créateurs.

Ce qui reste à confirmer

Plusieurs points demeurent à préciser dans ce dossier : l’étendue exacte des contenus présents dans SlimPajama‑627B, la vérification technique de la présence des ouvrages d’Elizabeth Lyon dans l’ensemble de données, et la nature précise des transformations appliquées entre RedPajama et SlimPajama, si la plainte allègue effectivement une dérivation. Ces éléments devront être établis au cours de la procédure.

À retenir

  • Une auteure d’Oregon a déposé un recours collectif alléguant que ses livres figuraient dans les données ayant servi au pré‑entraînement de SlimLM.
  • Adobe affirme que SlimLM a été pré‑entraîné sur SlimPajama‑627B, un jeu de données open source publié par Cerebras en 2023.
  • La plainte soutient que SlimPajama dériverait de RedPajama et contiendrait Books3, un corpus de 191 000 livres souvent contesté.
  • Des affaires similaires ont été intentées contre d’autres acteurs du secteur et un règlement significatif a déjà été conclu dans un litige comparable.
  • La procédure pourrait clarifier les règles de collecte de données pour l’IA, mais plusieurs éléments factuels restent à établir en justice.

Article amélioré avec l'IA - Article original