miércoles, 29 de abril de 2026

Nvidia Lanza Nemotron 3 Nano Omni Revolucionario

Nvidia ha dado un paso audaz en el mercado de inteligencia artificial al lanzar Nemotron 3 Nano Omni, un modelo multimodal de código abierto que unifica visión, audio y lenguaje en una sola arquitectura. Con 30 mil millones de parámetros pero solo 3 mil millones activos por inferencia, este modelo representa el movimiento más agresivo de la compañía para competir no solo en infraestructura de IA, sino en los modelos que se ejecutan en ella.

Nvidia Lanza Nemotron 3 Nano Omni Revolucionario

El modelo utiliza un diseño de mezcla de expertos que le permite funcionar en una sola GPU mientras iguala o supera las capacidades multimodales de modelos varias veces más grandes. Nvidia afirma que ofrece nueve veces mayor rendimiento que modelos multimodales abiertos comparables, 2.9 veces más rápido en razonamiento de tareas multimodales y aproximadamente nueve veces mayor capacidad efectiva del sistema para razonamiento de video. El modelo lidera seis benchmarks en inteligencia documental, comprensión de video y audio.

La arquitectura híbrida Mamba-Transformer de Nemotron 3 Nano Omni incluye 23 capas de espacio de estado selectivo Mamba-2, 23 capas de mezcla de expertos con 128 expertos que se enrutan a seis por token, y seis capas de atención de consulta agrupada. Procesa texto, imágenes, audio, video, documentos, gráficos e interfaces como entradas, produciendo texto como salida. Esto significa que un solo modelo puede reemplazar el mosaico de modelos especializados de visión, voz y procesamiento de documentos que la mayoría de las implementaciones empresariales actualmente utilizan.

La estrategia de Nvidia es circular pero poderosa: sus modelos están optimizados para su hardware, y su hardware está optimizado para sus modelos, creando un ecosistema completo que compite con las ofertas de modelo más nube de Google, Amazon y Microsoft. La familia de modelos Nemotron ha sido descargada más de 50 millones de veces en el último año, demostrando la tracción de esta estrategia.

Entre las empresas que ya están adoptando el modelo se encuentran Foxconn, Palantir, Aible y ASI, mientras que Dell, DocuSign, Infosys, Oracle y Zefr están evaluándolo para implementación en producción. Los casos de uso incluyen inspección visual en plantas de fabricación, procesamiento de documentos, aplicaciones de agentes de voz y comprensión de pantalla para agentes de uso de computadora, reflejando el mercado que Nvidia está apuntando: agentes de IA industriales que necesitan ver, escuchar y leer en tiempo real en hardware local.

Lo que distingue a Nemotron 3 Nano Omni no es una sola capacidad, sino la combinación: percepción multimodal en visión, audio y texto en un solo modelo, con eficiencia de mezcla de expertos que permite implementación en el borde, lanzado como pesos abiertos con licencia comercial. Ningún otro modelo actualmente ofrece las cuatro propiedades juntas. Si los modelos abiertos de Nvidia se convierten en el estándar para implementación de agentes de IA en el borde, la compañía captura valor en cada capa de la pila: la GPU que ejecuta la inferencia, el marco de software que la optimiza y ahora el modelo mismo.

Fuente Original: https://thenextweb.com/news/nvidia-nemotron-nano-omni-multimodal-agent-edge

Artículos relacionados de LaRebelión:

Artículo generado mediante LaRebelionBOT

No hay comentarios:

Publicar un comentario