En el evento AI Infra @ Scale, una conferencia virtual de un día organizada por los equipos de ingeniería e infraestructura, Meta anunció una serie de nuevos proyectos de hardware y software destinados a respaldar la próxima generación de aplicaciones de IA. Entre los anuncios se encuentra un nuevo diseño de centro de datos de IA que estará optimizado tanto para el entrenamiento como para la inferencia de IA, las dos fases principales del desarrollo y la ejecución de modelos de IA.
Los nuevos centros de datos aprovecharán el acelerador de entrenamiento e inferencia Meta (MTIA), un chip que ayudará a acelerar las cargas de trabajo de IA en diversas áreas, como la visión por ordenador, el procesamiento del lenguaje natural y los sistemas de recomendación.
Meta también reveló que ya ha construido el Supercluster de Investigación (RSC), una supercomputadora de inteligencia artificial que integra 16.000 GPU para ayudar a entrenar grandes modelos lingüísticos (LLM) como el proyecto LaMA que Meta anunció a finales de febrero.
Índice de temas
Qué ofrece el nuevo acelerador de inferencia de IA de Meta
Los chips de inferencia de IA hechos a medida tampoco son nada nuevo. Google lleva varios años desarrollando su Unidad de Procesamiento Tensorial (TPU) y Amazon tiene sus chips de inferencia AWS desde 2018.
Para Meta, la necesidad de inferencia de IA afecta a varios aspectos de las operaciones de sus sitios de medios sociales, incluidos los feeds de noticias, la clasificación, la comprensión de contenidos y las recomendaciones. En un vídeo que ilustra el silicio MTIA, el investigador de infraestructuras de Meta, Amin Firoozshahian, comentó que las CPU tradicionales no están diseñadas para manejar las demandas de inferencia de las aplicaciones que Meta ejecuta. Por ello, la empresa decidió construir su propio silicio a medida.
“MTIA es un chip optimizado para las cargas de trabajo que nos interesan y construido específicamente para estas necesidades”, dijo Firoozshahian.
Meta también es un gran usuario del marco de aprendizaje automático (ML) de código abierto PyTorch, que creó originalmente. Desde 2022, PyTorch está bajo la gestión de la Fundación Linux PyTorchFoundation. Parte del objetivo de MTIA es disponer de un silicio altamente optimizado para ejecutar cargas de trabajo PyTorch a gran escala.
MTIA está diseñado con un proceso de 7 nm (nanómetros) y puede ofrecer hasta 102,4 TOPS (billones de operaciones por segundo). Forma parte de un enfoque altamente integrado dentro de Meta para optimizar las operaciones de IA, incluyendo la creación de redes, la optimización del centro de datos y la utilización de la energía.
El centro de datos del futuro se construye para la IA
Meta lleva más de una década construyendo su centro de datos para satisfacer las necesidades de sus miles de millones de usuarios. Hasta acá todo bien, pero el crecimiento explosivo de las demandas de IA significa que es hora de hacer más.
“Nuestra actual generación de diseño de centros de datos es de primera clase, eficiente energéticamente y de bajo consumo”, afirmó Rachel Peterson, vicepresidenta de estrategia de centros de datos de Meta, durante una mesa redonda en el evento Infra @ scale. “Realmente nos ha apoyado a través de varias generaciones de servidores, almacenamiento y redes y es realmente capaz de servir muy bien a nuestras actuales cargas de trabajo de IA”.
A medida que crezca el uso de la IA en Meta, se necesitará más capacidad informática. Peterson señaló que Meta prevé un futuro en el que los chips de IA consumirán más de cinco veces la potencia de los servidores con CPU típicos de Meta.
Esta expectativa ha llevado a Meta a replantearse la refrigeración del centro de datos y a proporcionar refrigeración líquida a los chips para garantizar el nivel adecuado de eficiencia energética. Disponer de la refrigeración y la potencia adecuadas para hacer posible la inteligencia artificial es la fuerza motriz de los nuevos diseños de los centros de datos de Meta.
“Cuando miramos al futuro, siempre nos hemos preocupado de planificar el futuro del hardware y los sistemas de inteligencia artificial y de cómo podemos tener sistemas de mejor rendimiento en nuestro parque”, dijo Peterson.
En la carrera de la infraestructura de IA también Microsoft, IBM y Google
Meta no es, ni mucho menos, el único hiperescalador o gran proveedor de TI que está considerando una infraestructura de IA construida a propósito. En noviembre, Microsoft y Nvidia anunciaron una asociación para una supercomputadora de IA en la nube. El sistema utiliza (como era de esperar) GPU de Nvidia, conectadas a la tecnología de red InfiniBand Quantum 2 de Nvidia.
Unos meses más tarde, en febrero, IBM presentó los detalles de su supercomputadora de inteligencia artificial, cuyo nombre en clave es Vela. El sistema de IBM utiliza silicio x86, junto con GPU de Nvidia y redes basadas en Ethernet. Cada nodo del sistema Vela está equipado con ocho GPU A100 de 80 GB. El objetivo de IBM es crear nuevos modelos básicos que puedan ayudar a satisfacer las necesidades de IA de las empresas.
Para no quedarse atrás, Google también entró en la carrera de las supercomputadoras de inteligencia artificial con un anuncio el 10 de mayo. El sistema de Google utiliza GPU de Nvidia junto con unidades de procesamiento de infraestructuras (IPU) diseñadas a medida para permitir un rápido flujo de datos.
Nota publicada en AI4Business.
Prohibida su reproducción total o parcial.