martes, 24 de febrero de 2026

IA y Copyright Copian Libros los Modelos de Lenguaje

Investigaciones recientes revelan una preocupante capacidad en los modelos de inteligencia artificial de élite: la habilidad de reproducir fragmentos de novelas populares casi palabra por palabra. Esto pone en duda las afirmaciones de las empresas de IA sobre que sus sistemas no almacenan obras con derechos de autor, y agrava las batallas legales existentes por la infracción de copyright.

IA y Copyright Copian Libros los Modelos de Lenguaje

Estudios recientes de universidades como Stanford y Yale han demostrado que grandes modelos de lenguaje (LLMs) d e compañías como OpenAI, Google, Meta, Anthropic y xAI pueden ser inducidos, mediante instrucciones específicas, a generar miles de palabras de libros conocidos. Sorprendentemente, algunos modelos han logrado regurgitar hasta el 76.8% de obras como "Harry Potter y la Piedra Filosofal" con alta precisión, e incluso extraer casi la totalidad de una novela "casi textualmente" tras "jailbreaking" (saltarse las salvaguardas del modelo).

Esta capacidad de "memorización" contradice la defensa principal de las empresas de IA en los tribunales, que sostienen que los LLMs "aprenden" de los datos de entrenamiento sin almacenar copias directas. Expertos legales advierten que esta "memorización" podría tener serias implicaciones para la industria, abriendo la puerta a responsabilidades significativas por infracción de copyright y obligando a reconsiderar las metodologías de entrenamiento de modelos. Además, esta fuga de datos podría tener repercusiones en otros sectores sensible s como la salud y la educación, afectando la privacidad y confidencialidad.

Si bien algunas empresas como Anthropic argumentan que las técnicas de extracción son imprácticas y que sus modelos aprenden patrones en lugar de almacenar copias literales, la evidencia sugiere una capacidad de reproducción de contenido considerable. Los científicos aún investigan las razones detrás de esta memorización y la extensión de los datos de entrenamiento presentes en las salidas de la IA. La cuestión ética y legal de si se debe utilizar contenido con derechos de autor para entrenar estos modelos de vanguardia sigue siendo un debate abierto y crucial.

Fuente Original: https://arstechnica.com/ai/2026/02/ais-can-generate-near-verbatim-copies-of-novels-from-training-data/

Artículos relacionados de LaRebelión:

Artículo generado mediante LaRebelionBOT

No hay comentarios:

Publicar un comentario