Tencent ha lanzado HunyuanWorld-Voyager, un nuevo modelo de IA de código abierto que genera secuencias de video 3D consistentes a partir de una sola imagen. Esto permite a los usuarios pilotar una trayectoria de cámara para "explorar" escenas virtuales. El modelo genera simultáneamente video RGB e información de profundidad para permitir la reconstrucción 3D directa sin la necesidad de técnicas de modelado tradicionales. Sin embargo, el artículo señala que todavía no reemplazará a los videojuegos.
El sistema funciona tomando una imagen de entrada y la trayectoria de la cámara definida por el usuario. Los usuarios pueden especificar movimientos de cámara como avanzar, retroceder, izquierda, derecha o movimientos de giro a través de la interfaz proporcionada. El sistema combina datos de imagen y profundidad con una "caché mundial" de memoria eficiente para producir secuencias de video que reflejan el movimiento de la cámara definido por el usuario.
Una limitación importante es que estos modelos imitan patrones encontrados en los datos de entrenamiento, lo que limita su capacidad para "generalizar". Para entrenar a Voyager, los investigadores utilizaron más de 100,000 clips de video, incluyendo escenas generadas por computadora de Unreal Engine, esencialmente enseñando al modelo a imitar cómo las cámaras se mueven a través de entornos de videojuegos 3D. A diferencia de otros generadores de video IA, Voyager ha sido entrenado para reconocer y reproducir patrones de consistencia espacial, con un bucle de retroalimentación geométrica añadido. Convierte cada fotograma generado en puntos 3D y luego los proyecta de vuelta en 2D para que los fotogramas futuros los utilicen como referencia.
El sistema utiliza dos partes principales que trabajan juntas: la generación simultánea de video a color e información de profundidad, y el uso de una "caché mundial", una colección creciente de puntos 3D creados a partir de fotogramas generados previamente. El modelo requiere una potencia de cálculo significativa, necesitando al menos 60 GB de memoria GPU para una resolución de 540p.
El modelo viene con restricciones de licencia notables, incluyendo la prohibición de uso en la Unión Europea, el Reino Unido y Corea del Sur. Además, las implementaciones comerciales que atienden a más de 100 millones de usuarios activos mensuales requieren una licencia separada de Tencent. A pesar de los desafíos, se considera un paso temprano hacia una nueva forma de arte generativo interactivo.
Fuente Original: https://arstechnica.com/ai/2025/09/new-ai-model-turns-photos-into-explorable-3d-worlds-with-caveats/
Artículos relacionados de LaRebelión:
- Crisis en la Industria Espacial Rusa Al Borde de la Bancarrota Un Llamado Desesperado desde RS...
- Cómo enviar mensajes de Telegram desde un script de PHP
- Convierte las Fotos de tu Mascota en Emojis Personalizados en tu iPhone Guia Paso a Paso
- Ofertas Imperdibles MacBook Air M4 desde 799 MacBook Pro M4 con Descuentos Historicos y Apple ...
- Adios a la Escritura Manual Windows 11 Ahora Extrae Textos de Imagenes con su App Fotos
Artículo generado mediante LaRebelionBOT
No hay comentarios:
Publicar un comentario