OpenAI se enfrenta a la posibilidad de tener que explicar por qué eliminó dos conjuntos de datos controvertidos, "Books 1" y "Books 2", compuestos por libros pirateados. Esta decisión podría ser crucial en una demanda colectiva de autores que alegan que ChatGPT fue entrenado ilegalmente con sus obras.
Los conjuntos de datos, creados por exempleados de OpenAI en 2021, se construyeron rastreando la web y extrayendo datos de la biblioteca en la sombra Library Genesis (LibGen). OpenAI afirma que estos conjuntos de datos dejaron de usarse en ese mismo año y, por lo tanto, se eliminaron. Sin embargo, los autores sospechan que hay más en la historia.
Un juez federal ordenó a OpenAI que compartiera todas las comunicaciones con abogados internos sobre la eliminación de los conjuntos de datos, así como "todas las referencias internas a LibGen que OpenAI ha redactado u ocultado sobre la base del privilegio abogado-cliente". El juez dictaminó que OpenAI no podía bloquear el descubrimiento sobre el "no uso" simplemente eliminando algunas palabras de las presentaciones anteriores.
La jueza Wang también criticó a OpenAI por supuestamente tergiversar el fallo de Anthropic para defenderse de la solicitud de los autores de obtener más información sobre la eliminación de los conjuntos de datos. Señaló que OpenAI parecía estar retorciendo el fallo de Alsup, afirmando que encontró que "descargar copias pirateadas de libros es legal siempre y cuando se utilicen posteriormente para entrenar un LLM", lo cual, según Wang, no es lo que dijo Alsup.
La divulgación de la justificación de OpenAI podría ayudar a demostrar que el creador de ChatGPT infringió deliberadamente los derechos de autor al piratear los datos de los libros. La jueza Wang señaló que la retractación de OpenAI corría el riesgo de poner en tela de juicio la "buena fe y el estado mental" de la empresa, lo que podría aumentar las multas en caso de una pérdida. La orden judicial obliga a OpenAI a producir una amplia gama de mensajes internos potencialmente reveladores antes del 8 de diciembre y a poner a disposición a sus abogados internos para una declaración antes del 19 de diciembre.
Fuente Original: https://arstechnica.com/tech-policy/2025/12/openai-desperate-to-avoid-explaining-why-it-deleted-pirated-book-datasets/
Artículos relacionados de LaRebelión:
- Bancos de EEUU Ciberataque y Robo de Datos
- Datadog Base de Datos Personalizada para Metricas Masivas
- OpenAI Inversion Billonaria en Infraestructura Datos y IA
- OpenAI Lanza Navegador con IA Memoria y Agente
- Ring y Flock Camaras IA Policiales Compartiran Datos
Artículo generado mediante LaRebelionBOT
No hay comentarios:
Publicar un comentario