OpenAI ha lanzado GPT-5.4, apenas dos días después de presentar GPT-5.3 Instant, marcando un ritmo de desarrollo sin precedentes en la industria de la inteligencia artificial. Este nuevo modelo se posiciona como la herramienta más capaz y eficiente de la compañía para trabajo profesional, disponible en tres configuraciones: una versión estándar para uso general, GPT-5.4 Thinking para tareas que requieren razonamiento extendido, y GPT-5.4 Pro para cargas de trabajo de máxima demanda.
Los resultados en benchmarks son notablemente impresionantes. En GDPval, la evaluación interna de OpenAI que mide el rendimiento en tareas de conocimiento profesional abarcando 44 ocupaciones, GPT-5.4 igualó o superó a profesionales de la industria en el 83% de las comparaciones, un salto significativo desde el 70.9% de GPT-5.2. En OSWorld-Verified, que evalúa la capacidad de un modelo para navegar un entorno de escritorio usando capturas de pantalla y controles de teclado y ratón, GPT-5.4 alcanzó una tasa de éxito del 75%, superando el benchmark de rendimiento humano del 72.4% y muy por encima del 47.3% de GPT-5.2. Además, el modelo obtuvo la primera posición en el benchmark APEX-Agents de Mercor, diseñado para evaluar agentes en tareas profesionales sostenidas en banca de inversión, consultoría y derecho corporativo.
La capacidad más revolucionaria es el uso nativo de computadora en Codex y la API. GPT-5.4 es el primer modelo de propósito general de OpenAI con esta funcionalidad integrada, permitiendo a los agentes operar software, navegar sistemas de archivos y ejecutar flujos de trabajo de múltiples pasos a través de aplicaciones. La versión API también soporta ventanas de contexto de hasta 1 millón de tokens, más del doble de los 400,000 disponibles en GPT-5.3, aunque con una advertencia de precio: OpenAI cobra el doble de la tarifa estándar por millón de tokens una vez que la entrada supera los 272,000 tokens. En comparación, el Gemini 3.1 Pro de Google ofrece un contexto de 2 millones de tokens a un precio base más bajo.
OpenAI también reporta mejoras significativas en la reducción de alucinaciones, con afirmaciones factuales individuales un 33% menos propensas a ser incorrectas en comparación con GPT-5.2, y respuestas generales un 18% menos propensas a contener errores. Sin embargo, es importante notar que estas cifras son autorreportadas y las comparaciones se realizan contra GPT-5.2 en lugar del más reciente GPT-5.3. El lanzamiento incluye además una nueva evaluación de código abierto llamada CoT Controllability, diseñada para probar si los modelos de razonamiento pueden ocultar deliberadamente su cadena de pensamiento para evadir el monitoreo, abordando una preocupación creciente en la investigación de seguridad de IA.
Fuente Original: https://thenextweb.com/news/openai-gpt-54-launch-computer-use-benchmarks
Artículos relacionados de LaRebelión:
- OpenAI Launches GPT-54 for Advanced Knowledge Work
- IA de OpenAI Agente de Datos Revoluciona Empresas
- Sam Altman Clarifies OpenAI Pentagon Deal Anthropic Threats
- OpenAI Lands Pentagon AI Deal Amidst Rival Ban
- AI Agents Peter Steinberger Joins OpenAI
Artículo generado mediante LaRebelionBOT
No hay comentarios:
Publicar un comentario