Investigaciones recientes revelan una preocupante capacidad en los modelos de inteligencia artificial de élite: la habilidad de reproducir fragmentos de novelas populares casi palabra por palabra. Esto pone en duda las afirmaciones de las empresas de IA sobre que sus sistemas no almacenan obras con derechos de autor, y agrava las batallas legales existentes por la infracción de copyright.
Estudios recientes de universidades como Stanford y Yale han demostrado que grandes modelos de lenguaje (LLMs) d e compañías como OpenAI, Google, Meta, Anthropic y xAI pueden ser inducidos, mediante instrucciones específicas, a generar miles de palabras de libros conocidos. Sorprendentemente, algunos modelos han logrado regurgitar hasta el 76.8% de obras como "Harry Potter y la Piedra Filosofal" con alta precisión, e incluso extraer casi la totalidad de una novela "casi textualmente" tras "jailbreaking" (saltarse las salvaguardas del modelo).
Esta capacidad de "memorización" contradice la defensa principal de las empresas de IA en los tribunales, que sostienen que los LLMs "aprenden" de los datos de entrenamiento sin almacenar copias directas. Expertos legales advierten que esta "memorización" podría tener serias implicaciones para la industria, abriendo la puerta a responsabilidades significativas por infracción de copyright y obligando a reconsiderar las metodologías de entrenamiento de modelos. Además, esta fuga de datos podría tener repercusiones en otros sectores sensible s como la salud y la educación, afectando la privacidad y confidencialidad.
Si bien algunas empresas como Anthropic argumentan que las técnicas de extracción son imprácticas y que sus modelos aprenden patrones en lugar de almacenar copias literales, la evidencia sugiere una capacidad de reproducción de contenido considerable. Los científicos aún investigan las razones detrás de esta memorización y la extensión de los datos de entrenamiento presentes en las salidas de la IA. La cuestión ética y legal de si se debe utilizar contenido con derechos de autor para entrenar estos modelos de vanguardia sigue siendo un debate abierto y crucial.
Fuente Original: https://arstechnica.com/ai/2026/02/ais-can-generate-near-verbatim-copies-of-novels-from-training-data/
Artículos relacionados de LaRebelión:
- Guerra de IA OpenAI y Anthropic Lanza Nuevos Modelos
- IA Falcon H1R 7B Supera Modelos 7 Veces Mayores
- Mejores Peliculas 2025 Los Favoritos de la Critica
- IA en Video El Fin de los Creadores Independientes
- Despidos Estrategicos Wall Street Ya No Los Recompensa
Artículo generado mediante LaRebelionBOT
No hay comentarios:
Publicar un comentario