La comédienne américaine Sarah Silverman se joint aux auteurs pour poursuivre Meta et OpenAI pour violation du droit d'auteur

Jean Delaunay

La comédienne américaine Sarah Silverman se joint aux auteurs pour poursuivre Meta et OpenAI pour violation du droit d’auteur

Sarah Silverman et deux autres auteurs américains affirment qu’OpenAI et Meta ont illégalement utilisé leurs livres pour former leurs modèles d’IA.

La comédienne et auteure américaine Sarah Silverman a intenté une action en justice contre Meta et OpenAI, le créateur de ChatGPT, alléguant que les entreprises utilisaient illégalement ses mémoires « The Bedwetter » pour former leurs modèles de langage d’IA.

Dans deux recours collectifs distincts déposés vendredi devant un tribunal de district de Californie, Silverman, ainsi que les auteurs à succès Christopher Golden et Richard Kadrey, ont déclaré qu’ils « n’avaient pas consenti à l’utilisation de leurs livres protégés par le droit d’auteur comme matériel de formation » pour l’IA des entreprises. des modèles.

HarperCollins
Dans le procès, Silverman affirme qu’OpenAI a utilisé son livre « The Bedwetter » sans son consentement pour former le modèle linguistique de ChatGPT.

Dans le procès contre OpenAI, les avocats du trio ont présenté des pièces à conviction montrant que lorsque vous y êtes invité, ChatGPT générera des résumés de leurs travaux, « ce qui n’est possible que si ChatGPT a été formé sur les œuvres protégées par le droit d’auteur des demandeurs ».

Le procès contre Meta allègue que les livres des auteurs étaient accessibles dans des ensembles de données que Meta a utilisés pour former ses modèles d’IA open source LLaMA (Large Language Model Meta AI), que la société a introduits en février.

Le cabinet d’action collective représentant Silverman – Joseph Saveri Law Firm, LLP, qui a des bureaux en Californie et à New York – a intenté une action similaire contre OpenAI au nom des auteurs Paul Tremblay (« La cabane au bout du monde ») et Mona Awad (« Bunny ») le 28 juin.

Pourquoi les livres sont le terrain d’entraînement idéal pour les modèles de langage d’IA

Pour que les grands modèles de langage d’IA apprennent rapidement, ils doivent être entraînés sur d’énormes quantités de texte bien écrit – et les livres sont évidemment les meilleurs matériaux pour cela.

Les développeurs de ChatGPT ont déclaré qu’ils entraînaient le modèle de langage sur un ensemble de données appelé BooksCorpus, qui « contient plus de 7 000 livres uniques non publiés de divers genres, notamment l’aventure, la fantaisie et la romance ».

« Essentiellement, il contient de longues portions de texte contigu, ce qui permet au modèle génératif d’apprendre à se conditionner sur des informations à longue portée », a écrit OpenAI dans un rapport intitulé « Améliorer la compréhension du langage par la pré-formation générative ».”.

Des centaines de grands modèles de langage ont été formés sur BookCorpus, y compris ceux créés par OpenAI, Google et Amazon.

La controverse tourne cependant autour d’un autre ensemble de données utilisé pour former les modèles : dans un article de 2020, OpenAI a déclaré que 15 % de son ensemble de données de formation ChatGPT-3 provenaient de « deux corpus de livres sur Internet » que la société appelait « Books1″ et Books2 ». .

La société n’a jamais révélé quels livres sont inclus dans « Books1 » et « Books2 ».

Dans leur plainte, les avocats de Silverman ont déclaré que sur la base des chiffres donnés dans l’article d’OpenAI sur ChatGPT-3, « Books1 » est environ neuf fois plus grand que BookCorpus, tandis que « Books2 » est 42 fois plus grand. Cela signifierait que les deux ensembles de données contiennent plus de 350 000 livres.

Cela les amène à croire que les modèles sont formés sur des «bibliothèques fantômes» illégales trouvées en ligne.

« Les seuls » corpus de livres sur Internet « qui ont jamais offert autant de matériel sont des sites Web de » bibliothèque fantôme « notoires comme Library Genesis (alias LibGen), Z-Library (alias Bok), Sci-Hub et Bibliotik « , a déclaré le procès. lit.

Artistes contre l’IA : une nouvelle vague de procès

Le procès de Silverman est le dernier d’une série de litiges sur la propriété intellectuelle entre les artistes et les sociétés d’IA, alors que les créatifs affirment que la nouvelle technologie peu réglementée bafoue de manière flagrante la loi sur le droit d’auteur.

En janvier, un groupe d’artistes visuels – également représentés par le cabinet d’avocats Joseph Saveri et Matthew Butterick – a poursuivi les sociétés d’intelligence artificielle Stability AI Ltd, Midjourney Inc et DeviantArt Inc pour violation du droit d’auteur.

Ce procès fait valoir que le logiciel des sociétés copie des milliards d’images protégées par le droit d’auteur pour permettre à Midjourney et à l’IA de DeviantArt de générer de nouvelles images dans les styles des artistes sans leur consentement.

Butterick a déclaré dans un article de blog que depuis le procès de novembre, ils avaient « entendu parler de personnes du monde entier – en particulier des écrivains, des artistes, des programmeurs et d’autres créateurs – qui s’inquiètent de la formation de systèmes d’IA sur de grandes quantités d’œuvres protégées par le droit d’auteur sans consentement. , aucun crédit et aucune compensation. »

Getty Images a également lancé des poursuites judiciaires contre Stability AI au Royaume-Uni pour la copie présumée par Stability de millions de ses images.

L’année dernière, des centaines d’artistes visuels se sont prononcés contre l’IA de Lensa application pour smartphone, qui permettait aux utilisateurs de créer des avatars numériques basés sur des œuvres d’art extraites de bases de données en ligne – dont une grande partie était protégée par le droit d’auteur et utilisée sans consentement.

Laisser un commentaire

15 + cinq =