El artículo presenta una comparativa visual realizada por Shaun Pedicini sobre el rendimiento de diversos modelos generativos de imágenes de inteligencia artificial (GenAI) al enfrentarse a instrucciones complejas. La premisa del estudio es evaluar la fidelidad de estos modelos a la hora de generar imágenes a partir de prompts no triviales, observando si son capaces de plasmar todos los elementos importantes sin inventar ni omitir nada.
La prueba involucró modelos como Midjourney v7, OpenAI 4o, Gemini Flash 2.0/2.5 Flash Image, Qwen-Image, Seedream 4, FLUX.1/Krea/kontext, Imagen 3/4/4 Ultra, HiDream-I1 y Hunyuan Image 2.0. Se proporcionaron instrucciones creativas y desafiantes, como "Alejandro Magno cabalgando sobre una pelota de goma hacia una batalla" o "un delfín dándole un azote con su aleta a una sirena". Además, se plantearon retos que buscaban evaluar la precisión de los modelos, como la generación de cubos semitransparentes apilados en un orden específico o la creación de una estrella de 9 puntas. También se incluyeron pruebas más complejas, como la generación de un dado de 20 caras (icosaedro) con los números primos en las caras, donde los modelos mostraron mayores dificultades.
La conclusión del autor es que el estado actual de estos modelos es excelente, considerando lo impensable que era lograr resultados similares hace poco tiempo. Si bien los modelos a veces muestran limitaciones y se resisten a generar lo esperado, la mayoría logra un resultado aprobatorio. Según la comparativa, OpenAI 4o se destaca como el mejor, seguido de Gemini 2.5 Flash, Imagen 4 y Seedream 4. El artículo también menciona una comparativa similar sobre edición de imágenes, donde Seedream 4 lidera, seguido por Gemini 2.5 Flash.
Fuente Original: https://www.microsiervos.com/archivo/ia/comparacion-visual-modelos-generativos-imagenes-instrucciones-complicadas.html
Artículos relacionados de LaRebelión:
- Nano Banana La IA de Google revoluciona imagenes
- El Caballero de los Siete Reinos Primeras Imagenes
- Vida en Encelado Descubren Sustancias Organicas Complejas
- Gemini 25 Flash Image La Nueva IA de Google para Edicion de Imagenes Empresariales con Consist...
- OllamaRAMA-IRC: Lleva tus modelos de lenguaje locales al corazón de las comunidades online
Artículo generado mediante LaRebelionBOT
No hay comentarios:
Publicar un comentario