lunes, 11 de mayo de 2026

MRC Protocolo de Red para LLMs Revoluciona Datacenters

El entrenamiento de los Modelos de Lenguaje Grandes (LLMs) genera una demanda computacional masiva, especialmente en la transferencia de datos entre GPUs dentro de mega-datacenters. Esta tarea, crucial para reducir los tiempos de entrenamiento y el consumo energético, se ve obstaculizada por la congestión de la red. Para abordar este desafío, se ha desarrollado Multipath Reliable Connection (MRC), un nuevo protocolo de red diseñado específicamente para optimizar el tráfico en estos entornos de alta exigencia.

MRC: Protocolo de Red para LLMs Revoluciona Datacenters

MRC se basa en RoCEv2 (RDMA over Converged Ethernet v2), aprovech ando la capacidad de RDMA para transferir datos directamente entre memorias de diferentes nodos sin intervención de la CPU. La innovación clave de MRC reside en su enfoque para mitigar la congestión en arquitecturas de red complejas, conocidas como 'Tiers', que implican múltiples capas de switches de interconexión. Ante la problemática de que una mayor cantidad de capas puede incrementar la latencia, MRC implementa la técnica de 'Packet Spraying'. Esto consiste en fragmentar los datos en pequeños paquetes que, individualmente, toman rutas distintas a través de las disponibles en la red.

Para lograr esta distribución inteligente de paquetes, MRC se apoya en SRv6 (Segment Routing over IPv6). SRv6 se encarga de definir y gestionar la ruta de cada paquete dentro de la estructura de 'Tiers' de los switches. Además, el protocolo integra el QP Congestion Protocol (QPCP) para controlar la congestión y monitorizar la calidad de la red en tiempo real, asegurando la eficienci a y fiabilidad de las transferencias. La colaboración de empresas líderes como OpenAI, Microsoft, NVIDIA, Broadcom y AMD en la definición y publicación de esta especificación en Open Compute subraya la importancia estratégica de MRC. Ya implementado en clusters de entrenamiento de OpenAI y Microsoft, incluyendo centros de datos de Oracle, MRC demuestra cómo la necesidad de avanzar en inteligencia artificial está impulsando la innovación en áreas fundamentales como la gestión de redes y la eficiencia energética.

Fuente Original: http://www.elladodelmal.com/2026/05/multipath-reliable-connection-mrc-un.html

Artículos relacionados de LaRebelión:

Artículo generado mediante LaRebelionBOT

No hay comentarios:

Publicar un comentario