sábado, 28 de marzo de 2026

IndexCache Inferencia 82 Mas Rapida en IA

Procesar 200,000 tokens a través de un modelo de lenguaje grande es costoso y lento: cuanto más largo es el contexto, más rápido se disparan los costos. Investigadores de la Universidad de Tsinghua y Z.ai han desarrollado una técnica llamada IndexCache que elimina hasta el 75% de la computación redundante en modelos de atención dispersa, logrando una velocidad hasta 1.82 veces más rápida en el tiempo hasta el primer token y 1.48 veces más rápida en el rendimiento de generación con esa longitud de contexto.

IndexCache: Inferencia 82% Más Rápida en IA

Los modelos de lenguaje grandes dependen del mecanismo de autoatención, donde el modelo calcula la relación entre cada token en su contexto y todos los anteriores para predecir el siguiente. Sin embargo, esta autoatención tiene una limitación severa: su complejidad computacional escala de manera cuadrática con la longitud de la secuencia. La atención dispersa ofrece una solución al hacer que cada consulta seleccione y atienda solo al subconjunto más relevante de tokens. La arquitectura DeepSeek Sparse Attention (DSA) implementa este concepto mediante un módulo indexador ligero que califica los tokens anteriores y selecciona un pequeño lote para procesarlo.

Los investigadores identificaron un problema persistente: el indexador DSA aún opera con complejidad cuadrática en cada capa. A medida que crece la longitud del contexto, el tiempo que el modelo pasa ejecutando estos indexadores se dispara. Para resolver este cuello de botella, el equipo descubrió que el subconjunto de tokens importantes que selecciona un indexador permanece notablemente estable a través de capas consecutivas del transformador, con capas adyacentes compartiendo entre el 70% y el 100% de sus tokens seleccionados.

IndexCache capitaliza esta redundancia dividiendo las capas del modelo en dos categorías: capas completas (F) que mantienen sus indexadores activos calculando y almacenando en caché los tokens más importantes, y capas compartidas (S) que no realizan indexación y reutilizan los índices almacenados de la capa F anterior más cercana. Los investigadores desarrollaron dos enfoques de implementación: un método sin entrenamiento que utiliza un algoritmo de selección de capas y un método consciente del entrenamiento que optimiza los parámetros de la red.

En pruebas con el modelo GLM-4.7 Flash de 30 mil millones de parámetros, IndexCache redujo la latencia de prellenado de 19.5 segundos a solo 10.7 segundos en un contexto de 200K, logrando una aceleración de 1.82 veces. Durante la fase de decodificación, el rendimiento aumentó de 58 a 86 tokens por segundo, una mejora de 1.48 veces. Estas ganancias de eficiencia se traducen directamente en ahorros de costos: los equipos empresariales observan al menos una reducción aproximada del 20% en los costos de implementación para cargas de trabajo de contexto largo como RAG, análisis de documentos y flujos de trabajo agénticos.

Notablemente, estas ganancias de eficiencia no comprometieron las capacidades de razonamiento. El modelo optimizado igualó el puntaje promedio del original en benchmarks de contexto largo e incluso superó al original en el complejo benchmark de razonamiento matemático AIME 2025. Los parches de código abierto ya están disponibles en GitHub para los principales motores de servicio como vLLM y SGLang, permitiendo a los desarrolladores integrar IndexCache con cambios mínimos de configuración.

Fuente Original: https://venturebeat.com/technology/indexcache-a-new-sparse-attention-optimizer-delivers-1-82x-faster-inference

Artículos relacionados de LaRebelión:

Artículo generado mediante LaRebelionBOT

No hay comentarios:

Publicar un comentario