Google afirma que su TPU v4 supera a Nvidia A100 - Soluciones costeras de Shenzhen Inc.

Por Jaime Hampton

6 de abril de 2023

Un nuevo artículo científico de Google detalla el rendimiento de su plataforma de supercomputación Cloud TPU v4 y afirma que proporciona un rendimiento a gran escala para el aprendizaje automático con mayor eficiencia.

Los autores del artículo de investigación afirman que la TPU v4 es entre 1,2 y 1,7 veces más rápida y utiliza entre 1,3 y 1,9 veces menos energía que la Nvidia A100 en sistemas de tamaño similar. El documento señala que Google no ha comparado TPU v4 con las GPU Nvidia H100 más nuevas debido a su disponibilidad limitada y arquitectura de 4 nm (frente a la arquitectura de 7 nm de TPU v4).

A medida que los modelos de aprendizaje automático se han vuelto más grandes y complejos, también lo han hecho sus necesidades de recursos informáticos. Las unidades de procesamiento de tensores (TPU) de Google son aceleradores de hardware especializados que se utilizan para construir modelos de aprendizaje automático, específicamente redes neuronales profundas. Están optimizados para operaciones de tensor y pueden aumentar significativamente la eficiencia en el entrenamiento y la inferencia de modelos de aprendizaje automático a gran escala. Google dice que el rendimiento, la escalabilidad y la disponibilidad hacen que las supercomputadoras de TPU sean los caballos de batalla de sus grandes modelos de lenguaje como LaMDA, MUM y PaLM.

La supercomputadora TPU v4 contiene 4096 chips interconectados a través de conmutadores de circuitos ópticos (OCS) patentados, que según Google son más rápidos, más baratos y utilizan menos energía que InfiniBand, otra tecnología de interconexión popular. Google afirma que su tecnología OCS representa menos del 5 % del costo y la potencia del sistema de la TPU v4, afirmando que reconfigura dinámicamente la topología de interconexión de supercomputadoras para mejorar la escala, la disponibilidad, la utilización, la modularidad, la implementación, la seguridad, la potencia y el rendimiento.

Los ingenieros de Google y los autores del artículo, Norm Jouppi y David Patterson, explicaron en una publicación de blog que gracias a las innovaciones clave en las tecnologías de interconexión y los aceleradores específicos de dominio (DSA), Google Cloud TPU v4 permitió un salto de casi 10 veces en la escala del rendimiento del sistema ML sobre TPU v3. También aumentó la eficiencia energética en aproximadamente 2-3 veces en comparación con los DSA de ML contemporáneos y redujo el CO2e en aproximadamente 20 veces más que los DSA en lo que la compañía llama centros de datos locales típicos.

El sistema TPU v4 ha estado operativo en Google desde 2020. El chip TPU v4 se presentó en la conferencia de desarrolladores I/O de 2021 de la empresa. Google dice que los equipos líderes de IA utilizan activamente las supercomputadoras para la investigación y producción de ML en modelos de lenguaje, sistemas de recomendación y otra IA generativa.

Con respecto a los sistemas de recomendación, Google dice que sus supercomputadoras TPU también son las primeras con soporte de hardware para incrustaciones, un componente clave de los modelos de recomendación de aprendizaje profundo (DLRM) que se utilizan en publicidad, clasificación de búsqueda, YouTube y Google Play. Esto se debe a que cada TPU v4 está equipado con SparseCores, que son procesadores de flujo de datos que aceleran los modelos que se basan en incrustaciones de 5 a 7 veces, pero usan solo el 5 % del área y la energía del troquel.

Midjourney, una startup de IA de texto a imagen, seleccionó recientemente TPU v4 para entrenar la cuarta versión de su modelo de generación de imágenes: "Estamos orgullosos de trabajar con Google Cloud para ofrecer una experiencia perfecta para nuestra comunidad creativa impulsada por Google a nivel mundial. infraestructura escalable", dijo David Holz, fundador y director ejecutivo de Midjourney en una publicación de blog de Google. "Desde entrenar la cuarta versión de nuestro algoritmo en las TPU v4 más recientes con JAX, hasta ejecutar inferencias en GPU, nos ha impresionado la velocidad a la que TPU v4 permite a nuestros usuarios dar vida a sus ideas vibrantes".

Las supercomputadoras TPU v4 están disponibles para los investigadores y desarrolladores de IA en el clúster de ML de Google Cloud en Oklahoma, que se inauguró el año pasado. Con nueve exaflops de rendimiento agregado máximo, Google cree que el clúster es el centro de ML disponible públicamente más grande que opera con un 90 % de energía libre de carbono. Consulte el documento de investigación de TPU v4 aquí.