Siete licenciatarios de conjuntos de datos integrados por música, imágenes, texto, vídeo y otros tipos de contenido, y utilizados para entrenar sistemas de IA, se han asociado en una Alianza de Proveedores de Conjuntos de Datos (DPA, Dataset Providers Alliance), a fin de fomentar prácticas éticas en la obtención y utilización de los mismos.

El grupo se propone, entre otros objetivos, promover la transparencia y la estandarización en la concesión de licencias de contenido sujeto a propiedad intelectual (PI) para conjuntos de datos destinados a IA y aprendizaje automático, garantizando al mismo tiempo la protección de los derechos de autor.

Entre los miembros fundadores del consorcio se hallan las empresas Rightsify, especializada en licencias sobre música; vAIsual, servicio de licencias sobre imágenes; Pixta, proveedor japonés de fotografías de archivo; IA Global Copyright Exchange, especializada en generación de música; y Datarade, mercado de datos.

Alex Bestall, consejero delegado de Rightsify, ha declarado que la DPA “ofrecerá una poderosa voz a los proveedores de conjuntos de datos y garantizará la protección de los derechos de los creadores de contenidos, así como el acceso de los desarrolladores de IA a grandes volúmenes de datos de entrenamiento de elevada calidad”.

La primera iniciativa de la DPA será un libro blanco en el que se detallarán las normas de concesión de licencias sobre conjuntos de datos.

Una de las preocupaciones suscitadas por el uso de los chatbots de IA generativa es la falta de claridad sobre el código fuente de PI o lenguaje abierto que se usa en la recopilación de información destinada al desarrollo de plataformas.

Se ha acusado a las firmas especializadas en IA generativa, como OpenAI, de buscar en Internet datos que pueda utilizar sin coste alguno para entrenar sus grandes modelos lingüísticos, lo que ha dado lugar a demandas por supuesta infracción de derechos de autor.

Google y Microsoft aseguran que protegerán a sus clientes frente a las reclamaciones por infracción de derechos de autor, tanto si estas se refieren a productos acabados como al uso de datos en el entrenamiento de la IA.