La mémoire tenace de l’IA générative : surapprentissage, fair use et AI Act

Image de Gerd Altmann de Pixabay

L’évolution radicale des modèles d’IA générative remodèle rapidement le paysage juridique du droit d’auteur. À la suite des cas marquants de Authors Guild, Inc contre HathiTrust et Guilde des auteurs, Inc contre Google, Inc – ou la livres Google Dans ce cas –, la doctrine de l’utilisation équitable a intégré un principe fondamental d’utilisation non expressive, faisant référence à tout acte de reproduction qui n’est pas destiné à permettre à l’homme de jouir, d’apprécier ou de comprendre l’expression copiée (voir ici). Si le principe repose sur la vieille dichotomie idée-expression, dont les racines remontent aux débuts du droit d’auteur, c’est aujourd’hui ce qui permet de distinguer l’œuvre expressive de l’information de niveau méta – faits, idées, index, statistiques, tendances, corrélations – qui peuvent être extraites de cette œuvre sans enfreindre les droits d’auteur potentiels. Pour le dire de manière plus métaphorique, c’est aujourd’hui le feu vert légal pour les robots d’exploration du Web pour parcourir tous les coins d’Internet, récupérer des informations sur des sites Web et des bases de données, indexer leur contenu et le stocker pour une récupération ultérieure, généralement par les moteurs de recherche. Les technologies basées sur la copie ont largement misé sur ce principe ces dernières années et il ne serait pas exagéré de dire que le principe d’utilisation non expressive est devenu le fondement juridique du fonctionnement essentiel d’Internet.

Mais la diffusion rapide des modèles d’IA générative, la dernière évolution de la technologie basée sur la copie, a posé une autre série de défis au droit d’auteur. Les litiges contre ces modèles se sont accumulés à la même vitesse vertigineuse qu’ils ont gagné du terrain. Et au cœur de ce litige se trouve une affirmation commune : l’IA générative a un problème de mémoire. Il s’agit d’un changement important par rapport aux litiges antérieurs impliquant des technologies basées sur la copie et mérite donc un nouveau regard. Alors, que signifie réellement ce problème de mémoire ? Dans l’apprentissage automatique, le compromis inhérent entre mémorisation et généralisation est l’une des « inconnues connues » du métier. On l’ignore encore, car les experts en apprentissage automatique sont toujours aux prises avec cette énigme dans l’espoir de trouver la meilleure solution pour trouver le bon équilibre entre les deux.

La mémorisation est un phénomène d’apprentissage automatique étroitement lié à ce que l’on appelle dans le métier le « surapprentissage » (voir ici et ici), et a été observé aussi bien dans les modèles de transformateurs que de diffusion (dans le cas des modèles de diffusion, voir, par exemple, Getty Images, Inc contre Stabilité AI, Inc; et dans le cas des modèles basés sur transformateur, voir ici). Cela signifie que le modèle mémorise l’ensemble d’entraînement plus qu’il ne le devrait ; il « s’adapte » si bien à l’ensemble de formation qu’il est incapable de généraliser ou – ce qui revient au même – de projeter ses prédictions stochastiques sur des données nouvelles et invisibles. En d’autres termes, un modèle présentant un problème de mémoire est susceptible de révéler par inadvertance des éléments de l’ensemble de formation d’origine s’il est correctement poussé par des invites spécifiques, franchissant ainsi le seuil de « reproduction » ou de « similarité substantielle » entre les œuvres protégées par le droit d’auteur utilisées dans l’ensemble de formation. et la sortie générée par le modèle. C’est comme Amusant, el memoriosole personnage principal d’un court conte écrit par Jorge Luis Borges, capable de se souvenir de chaque jour de sa vie dans les moindres détails, mais qui était un imbécile dans l’âme, totalement incapable de comprendre, de généraliser ou d’abstractions.

Plusieurs causes possibles de surapprentissage ont été rapportées dans la littérature: grande complexité du modèle d’IA, l’amenant à se mouler trop étroitement aux données d’entraînement ; données de formation limitées ; et trop de données bruitées, affectant la capacité du modèle à distinguer les informations pertinentes – un signal – de celles non pertinentes – un bruit. La littérature informatique suggère, par exemple, que la mémorisation est plus probable lorsque les modèles sont formés sur de nombreuses copies du même travail. Ceci explique pourquoi il est plus facile d’inciter un modèle à violer des personnages protégés par le droit d’auteur, à forte composante visuelle et omniprésents dans les médias, comme Snoopy, que de violer un tableau de Salvador Dalí (voir ici).

À la base de tous les cas de lecture robotique, que ce soit dans les moteurs de recherche ou l’IA générative, se trouvent des processus informatiques de base qui appliquent une structure aux textes électroniques non structurés et emploient des méthodes statistiques pour mettre à nu de nouveaux éléments de méta-informations et révéler les caractéristiques latentes inhérentes aux données traitées. Ceci est communément appelé TDM ou « exploration de textes et de données ».« , l’un des éléments constitutifs de l’apprentissage automatique et de la technologie de recherche sur Internet. Dans l’UE, les activités TDM se sont appuyées sur des dispositions d’exemption explicites inscrites dans la directive sur le droit d’auteur dans le marché unique numérique (CDSMD).). La soi-disant exception commerciale prévue à l’art. 4 CDSMD – incorporé par exemple dans la loi allemande sur le droit d’auteur au titre de l’article 44b –, qui prévoit que les reproductions et les extractions peuvent être conservées aussi longtemps que nécessaire à des fins d’exploration de textes et de données, à condition que l’utilisation des œuvres n’ait pas été expressément réservée par le titulaire du droit par des moyens lisibles par machine. En fait, la disposition établissait un mécanisme de « désinscription » permettant aux titulaires de droits d’auteur de réserver leurs droits d’auteur.

Dans un paysage numérique de plus en plus fragmenté, cette disposition est devenue un instrument clé d’autorégulation, jouant un rôle crucial dans l’attribution des droits et obligations autour de l’octroi de licences sur les œuvres protégées par le droit d’auteur en tant que données de formation (voir ici). En avril de l’année dernière, plus d’un milliard d’œuvres d’art avait été supprimé de l’ensemble d’entraînement à diffusion stable. Mais malgré toute la préparation technique de certains sites Web et organisations pour se désinscrire efficacement dans un format lisible par machine, une question persistante a toujours été de savoir si les modèles d’IA générative sont techniquement prêts à lire ces désinscriptions lisibles par machine ; par ailleurs, comment s’assurer qu’ils respectent ces opt-outs ? Et s’ils ne respectent pas les clauses de non-participation, comment les titulaires de droits d’auteur peuvent-ils savoir si leurs droits d’auteur ont été violés ?

C’est là que l’AI Act entre en jeu. Il y a au moins deux dispositions qui méritent attention, car elles marquent un pas bienvenu dans la bonne direction. L’article 53, paragraphe 1, point c), impose aux fournisseurs de modèles d’IA à usage général de mettre en place un régime de respect des droits d’auteur, c’est-à-dire une politique visant à respecter la législation de l’Union en matière de droits d’auteur, en particulier à identifier et à respecter, notamment au moyen d’un état des lieux. technologies de l’art, la réserve de droits exprimée en vertu de l’art. 4(3) CDSM. Et l’article 53(1)(d) impose une obligation supplémentaire aux fournisseurs de modèles d’IA à usage général de créer et de rendre public un résumé suffisamment détaillé du contenu utilisé dans la formation du modèle – selon un modèle qui sera fourni par le bureau de l’IA. Ensemble, ces deux dispositions facilitent techniquement l’exercice des clauses de non-participation et transfèrent davantage de pouvoir d’attribution aux titulaires de droits d’auteur (voir ici). Selon le considérant 107, même s’il convient de tenir dûment compte de la nécessité de protéger les secrets commerciaux et les informations commerciales confidentielles, le résumé doit être généralement complet dans sa portée afin de permettre aux parties ayant des intérêts légitimes, y compris les titulaires de droits d’auteur, d’exercer et de faire respecter leurs droits. en vertu du droit de l’Union, par exemple en répertoriant les principales collections ou ensembles de données ayant servi à la formation du modèle, telles que les grandes bases de données ou archives de données privées ou publiques, et en fournissant une explication narrative sur les autres sources de données utilisées.

Il ne se passe pratiquement pas un jour sans nouvelles d’avancées passionnantes dans le monde de l’IA. Face aux vagues perturbatrices de changements technologiques et à l’incertitude croissante, le droit ne peut s’empêcher de prendre un caractère « expérimental », les législateurs et les avocats étant souvent pris en retard, luttant pour suivre le vent du changement. Mais quelles que soient les prochaines étapes, une chose est sûre : les litiges autour de l’IA générative marquent un carrefour important, et quelle que soit la voie que nous choisirons, elle façonnera probablement l’avenir de la technologie. Les litiges croissants autour de l’IA générative ne ciblent pas image par image ou des extraits spécifiques de textes contrefaits produits par des modèles d’IA. Au contraire, c’est toute la technique derrière le système qui est en jeu..

Un autre élément clé qui mérite notre attention concerne le paysage fragmenté du droit d’auteur qui semble se développer à la suite des progrès rapides de la technologie de l’IA. Bien que le nouveau cadre juridique européen offre des règles strictes mais une base solide pour que la technologie de l’IA puisse prospérer sur le continent, il convient de se demander ce qui se passera si « l’effet Bruxelles » ne parvient pas à atteindre les rives de l’autre côté de l’Atlantique et l’utilisation d’œuvres protégées par le droit d’auteur. à des fins de formation s’avère être une utilisation équitable transformatrice dans les juridictions de common law, tandis qu’une partie importante de ces travaux est exclue des modèles d’IA sur le sol européen. Cela marquerait un fossé béant entre deux régimes de droit d’auteur, ouvrant un nouveau chapitre dans cette vieille histoire et potentiellement désavantageux les futurs fournisseurs européens d’IA générative.