Un groupe de huit journaux américains a porté plainte auprès d’une cour fédérale, affirmant que Microsoft et OpenAI ont utilisé leurs articles sans permission pour entraîner leurs modèles d’IA générative.

Les journaux de MediaNews Group, propriété du fonds Alden Global Capital, expliquent que les modèles Copilot de Microsoft et ChatGPT d’OpenAI « pillent des millions d’articles protégés par le droit d’auteur sans permission et sans payer pour alimenter la commercialisation » de leurs produits et services d’IA générative.

Les grands modèles de langage (large language models, ou LLMs) développés par les spécialistes de l’IA basent leur apprentissage sur l’ingurgitation d’énormes quantité de données textuelles, auxquelles les éditeurs et les auteurs refusent l’accès sans leur consentement et sans compensation financière.

Les éditeurs de journaux ajoutent qu’OpenAI, soutenu par Microsoft, a utilisé leurs articles pour entraîner ses LLMs GPT-2 et GPT-3, précisant que le « le LLM GPT-4 actuellement en service ressort des versions quasi-intégrales de portions significatives de la production du plaignant quand on en fait la requête ».

Les plaignants reprochent en outre à Microsoft d’avoir copié des informations tirées des journaux pour l’index du moteur de recherche Bing, textes sur lesquels le chatbot Copilot se base pour générer des réponses aux requêtes – sans fournir d’hyperliens vers les sites des médias.

Hallucinations

Les plaignants soulignent en outre que ChatGPT déforme à l’occasion les textes qui l’ont alimenté pour fabriquer des citations erronées – comme par exemple mentionner qu’un article de journal affirme que fumer peut guérir l’asthme.

« Comme si le plagiat des œuvres publiées par le plaignant n’était pas suffisant, les produits des défendeurs sont souvent sujets à des « hallucinations » dans lesquelles ils portent préjudice à la crédibilité du plaignant en attribuant à ses journaux des informations inexactes. Non contents de profiter du vol de contenu produit par le plaignant, les défendeurs ternissent activement la réputation des journaux et répandent une désinformation dangereuse », déplore MediaNews Group.

Interrogé par Mobile World Live, un représentant d’OpenAI a assuré que son entreprise « faisait très attention à s’assurer que ses produits et ses méthodes de conception soutenaient les producteurs d’information ».

« Si nous n’étions pas informés auparavant des griefs d’Alden Global Capital, nous sommes activement engagés dans des partenariats constructifs et dans des conversations avec quantité d’autres organismes producteurs d’information dans le monde afin d’explorer des opportunités, de discuter de leurs préoccupations et de fournir des solutions », a ajouté le représentant d’OpenAI.

A noter qu’OpenAI a signé des accords avec des médias comme le Financial Times et le groupe multinational Axel Springer afin d’obtenir du contenu destiné à entraîner ses LLMs.

Microsoft a pour l’heure refuser de commenter la procédure en cours.