Selon un reportage de Wired relayé par TechCrunch, OpenAI et la société de données Handshake AI demanderaient à des sous‑traitants de fournir des travaux réellement accomplis lors d’emplois passés ou en cours. La démarche, présentée comme visant à obtenir des « outputs concrets » pour entraîner des modèles d’IA, suscite des interrogations sur la confidentialité, la propriété intellectuelle et la responsabilité des entreprises impliquées.

Ce que le reportage décrit

La présentation interne évoquée inviterait les contractuels à décrire les tâches qu’ils ont réalisées et à téléverser les fichiers réels correspondants, et non de simples résumés. Les formats explicitement cités comprennent des documents Word, PDF, PowerPoint, feuilles Excel, images et dépôts de code. Avant l’envoi, les prestataires seraient priés d’effacer informations personnelles et éléments propriétaires, et dirigés vers un outil ChatGPT nommé « Superstar Scrubbing » pour effectuer ce « nettoyage ».

Pourquoi les entreprises procèdent ainsi

Cet appel à fournir des exemples concrets s’inscrirait dans une tendance où des acteurs de l’IA recrutent des contractuels pour produire des données d’entraînement de haute qualité. L’objectif apparent est d’obtenir des jeux de données proches du travail réel afin d’entraîner des modèles susceptibles d’assister, voire d’automatiser, des métiers qualifiés. Selon le reportage, la nature « authentique » des fichiers serait recherchée pour améliorer la pertinence et la performance des modèles.

Risques juridiques et éthiques soulevés

La méthode n’est pas sans risque. Un avocat spécialisé en propriété intellectuelle cité dans le reportage, Evan Brown, avertirait qu’une telle approche « met l’entreprise en grand danger », car elle repose largement sur la capacité des sous‑traitants à reconnaître et à retirer correctement les contenus confidentiels. Plusieurs points de vigilance émergent :

  • la fuite involontaire d’informations propriétaires ou de secrets industriels ;
  • la divulgation de données personnelles malgré les consignes de suppression ;
  • les incertitudes sur la titularité des créations professionnelles une fois intégrées aux corpus d’entraînement ;
  • la difficulté à tracer et à auditer l’origine et la conformité des fichiers fournis.

Le reportage indique par ailleurs que des voix expertes demanderaient des garanties contractuelles, des audits indépendants et des sanctions claires afin de prévenir litiges et de protéger salariés, clients et entreprises dont les créations alimenteraient des modèles commerciaux souvent sans transparence.

Réponses publiques et limites de l’information

OpenAI aurait décliné tout commentaire selon TechCrunch. Au‑delà des positions officielles, le cas met en lumière la tension entre la recherche de données d’entraînement de qualité et les exigences légales et éthiques entourant la collecte de contenus professionnels.

Ce qui reste à confirmer : le reportage repose sur des documents et témoignages internes relatés par Wired et repris par TechCrunch. Plusieurs éléments demeurent soumis à vérification, notamment l’ampleur exacte de la collecte, les modalités précises d’anonymisation proposées, et les mesures concrètes d’audit ou de responsabilité mises en place par les entreprises concernées. Il conviendrait aussi de confirmer la fréquence et la portée de l’usage des fichiers fournis dans les corpus d’entraînement.

À retenir

  • Un reportage affirme qu’OpenAI et Handshake AI demanderaient à des sous‑traitants des fichiers de travail réels pour entraîner des modèles d’IA.
  • Les documents demandés incluraient des fichiers Word, PDF, présentations, feuilles Excel, images et dépôts de code, après « nettoyage » via un outil nommé « Superstar Scrubbing ».
  • Cette pratique soulève des risques juridiques et éthiques liés à la confidentialité, à la propriété intellectuelle et à la responsabilité.
  • Des experts plaident pour des garanties contractuelles, des audits indépendants et des sanctions claires afin de protéger les personnes et les entreprises concernées.
  • Plusieurs points restent à confirmer, notamment l’ampleur réelle de la collecte et les mécanismes de contrôle effectifs mis en place.

Article amélioré avec l'IA - Article original