martes, 24 de marzo de 2026

Nvidia Revoluciona IA con Modelo Compacto Ultrapoderoso

Nvidia ha desafiado la creencia dominante en el desarrollo de inteligencia artificial de que los modelos más grandes siempre producen mejores resultados. Su nuevo modelo Nemotron-Cascade 2 demuestra que la eficiencia y el entrenamiento especializado pueden superar al tamaño bruto. Este modelo de código abierto utiliza solo 3 mil millones de parámetros activos, pero logró medallas de oro en tres de las competiciones más exigentes del mundo: la Olimpiada Internacional de Matemáticas 2025, la Olimpiada Internacional de Informática y las Finales Mundiales ICPC. Lo más revolucionario no es solo el modelo en sí, sino su receta de entrenamiento posterior llamada Cascade RL, ahora disponible como código abierto para equipos empresariales.

Nvidia Revoluciona IA con Modelo Compacto Ultrapoderoso

La ventaja competitiva real está en el post-entrenamiento, no en el pre-entrenamiento desde cero, que puede costar cientos de millones de dólares. Nemotron-Cascade 2 parte del mismo modelo base que Nemotron-3-Nano de Nvidia, pero lo supera en casi todos los puntos de referencia gracias exclusivamente a su pipeline de post-entrenamiento. Incluso supera al Nemotron-3-Super de Nvidia, que tiene cuatro veces más parámetros activos. Este hallazgo es crucial para empresas: no necesitan modelos más grandes o costosos, sino mejores técnicas de entrenamiento aplicadas a los modelos existentes.

Cascade RL resuelve el problema del "olvido catastrófico" entrenando dominios de manera secuencial en lugar de simultánea. El modelo pasa por etapas específicas: primero seguimiento de instrucciones, luego RL multidominio cubriendo preguntas STEM y llamadas a herramientas, después destilación on-policy, alineación de preferencias humanas, RL de contexto largo, RL de código y finalmente RL de ingeniería de software. Esta secuencia permite que cada etapa se optimice para su dominio específico sin degradar el rendimiento en otros dominios, logrando mejor utilización computacional.

La técnica MOPD (Multi-Domain On-Policy Distillation) complementa Cascade RL al reutilizar puntos de control intermedios del mismo entrenamiento como "maestros" para dominios específicos. En lugar de depender de modelos externos costosos, MOPD selecciona la mejor versión del modelo en cada etapa para diferentes capacidades y destila ese conocimiento de vuelta al modelo estudiante. Esta técnica a nivel de token es significativamente más eficiente que el aprendizaje por refuerzo tradicional, recuperando el rendimiento del maestro en solo 30 pasos de optimización en algunos benchmarks, comparado con más de 160 pasos para métodos convencionales.

Los resultados en benchmarks de razonamiento son impresionantes. En LiveCodeBench v6, Nemotron-Cascade 2 obtuvo 87.2 puntos, superando a modelos mucho más grandes como Qwen3.5-397B. En HMMT February 2025, alcanzó 94.6 puntos, compitiendo con modelos de cientos de miles de millones de parámetros. Con razonamiento integrado de herramientas, su rendimiento en AIME 2025 llegó a 98.6. Sin embargo, Nvidia reconoce honestamente las debilidades del modelo: tiene rendimiento inferior en benchmarks intensivos en conocimiento como MMLU-Pro y en algunas tareas agénticas complejas. Está optimizado para razonamiento profundo y seguimiento de instrucciones, no para recuperación general de conocimiento.

Para equipos empresariales, este enfoque ofrece patrones de diseño directamente aplicables. El ordenamiento secuencial de dominios permite agregar nuevas capacidades sin reconstruir todo el pipeline. MOPD elimina la necesidad de modelos maestros externos costosos. El modelo con solo 3 mil millones de parámetros activos puede desplegarse a una fracción del costo y latencia de modelos densos de 70 mil millones de parámetros, ofreciendo un camino viable para implementar capacidades avanzadas de razonamiento sin infraestructura de nivel frontera. Esta tendencia hacia la "densidad de inteligencia" representa el futuro de los modelos de IA empresariales, especialmente para tareas estructuradas como modelado financiero, computación científica e ingeniería de software.

Fuente Original: https://venturebeat.com/orchestration/nvidias-nemotron-cascade-2-wins-math-and-coding-gold-medals-with-3b-active

Artículo generado mediante LaRebelionBOT

No hay comentarios:

Publicar un comentario