Google y Microsoft configuran una batalla de hardware de IA con Next

Por Agam Shah

20 de febrero de 2023

Microsoft y Google están impulsando un cambio informático importante al llevar la IA a las personas a través de los motores de búsqueda, y una medida del éxito puede deberse al hardware y la infraestructura del centro de datos que respaldan las aplicaciones.

La semana pasada, Microsoft y Google anunciaron motores de búsqueda impulsados por inteligencia artificial de próxima generación que pueden razonar y predecir, y brindar respuestas más completas a las preguntas de los usuarios. Los motores de búsqueda podrán generar respuestas completas a consultas complejas, al igual que ChatGPT puede proporcionar respuestas detalladas o compilar ensayos.

Microsoft está poniendo AI en Bing para responder a consultas de texto, y Google compartió planes para poner AI en sus herramientas de búsqueda de texto, imágenes y videos. Los anuncios se hicieron en días consecutivos la semana pasada.

Las empresas reconocieron que la IA en los motores de búsqueda no sería posible sin una sólida infraestructura de hardware. Las empresas no compartieron detalles sobre el hardware real que impulsa la computación de IA.

Durante años, Microsoft y Google han estado fomentando hardware de IA diseñado para anuncios en horario estelar como los motores de búsqueda de IA de la semana pasada.

Las empresas tienen infraestructuras informáticas de IA muy diferentes, y la velocidad de las respuestas y la precisión de los resultados serán una prueba de fuego para la viabilidad de los motores de búsqueda.

Bard de Google funciona con sus chips TPU (Unidad de procesamiento de tensores) en su servicio en la nube, lo que fue confirmado por una fuente familiarizada con los planes de la compañía. Microsoft dijo que su supercomputadora de inteligencia artificial en Azure, que probablemente se ejecuta en GPU, puede ofrecer resultados del orden de milisegundos o a la velocidad de la latencia de búsqueda.

Eso establece una batalla muy pública en la informática de IA entre las TPU de Google contra el líder del mercado de IA, Nvidia, cuyas GPU dominan el mercado.

"Los equipos estaban trabajando en la potenciación y el desarrollo de máquinas y centros de datos en todo el mundo. Estábamos organizando y configurando cuidadosamente un conjunto complejo de recursos distribuidos. Construimos nuevas piezas de plataforma diseñadas para ayudar a equilibrar la carga, optimizar el rendimiento y escalar como nunca antes", dijo Dena. Saunders, líder de producto de Bing en Microsoft, durante el evento de lanzamiento.

Microsoft está utilizando una versión más avanzada de ChatGPT de OpenAI. En el evento de Microsoft, el CEO de OpenAI, Sam Altman, estimó que había 10 mil millones de consultas de búsqueda todos los días.

El camino de Microsoft hacia Bing con IA comenzó asegurándose de tener la capacidad informática con su supercomputadora de IA, que según la compañía se encuentra entre las cinco supercomputadoras más rápidas del mundo. La computadora no figura en las clasificaciones Top500.

"Hacemos referencia a la supercomputadora de IA, pero ese trabajo ha llevado años y ha requerido muchas inversiones para construir el tipo de escala, el tipo de velocidad, el tipo de costo que podemos aportar en cada capa de la pila. Creo que eso … es bastante diferenciada, la escala a la que operamos”, dijo Amy Hood, vicepresidenta ejecutiva y directora financiera de Microsoft, durante una llamada con inversionistas la semana pasada.

El costo de la computación para IA en la capa de supercomputadoras seguirá bajando con el tiempo a medida que se implementen escalas de uso y optimizaciones, dijo Hood.

"El costo por transacción de búsqueda tiende a disminuir con la escala, por supuesto, creo que estamos comenzando con una plataforma bastante sólida para poder hacer eso", dijo Hood.

Los costos de computación generalmente aumentan a medida que se implementan más GPU, y los costos de enfriamiento y otra infraestructura de soporte se suman a las facturas. Pero las empresas suelen vincular los ingresos al costo de la informática.

La supercomputadora de inteligencia artificial de Microsoft se construyó en asociación con OpenAI y tiene 285 000 núcleos de CPU y 10 000 GPU. En noviembre, Nvidia firmó un acuerdo para colocar decenas de miles de sus GPU A100 y H100 en la infraestructura de Azure.

La participación de búsqueda de Bing de Microsoft no se acerca a la Búsqueda de Google, que tenía una participación de mercado del 93 por ciento en enero, según Statcounter.

La inteligencia artificial es fundamentalmente un estilo diferente de computación que se basa en la capacidad de razonar y predecir, mientras que la computación convencional gira en torno a los cálculos lógicos. La IA se realiza en hardware que puede llevar a cabo la multiplicación de matrices, mientras que la informática convencional ha girado en torno a las CPU, que sobresalen en el procesamiento de datos en serie.

Google está adoptando un enfoque cauteloso y lanzando su IA conversacional Bard como una versión moderna y liviana de su modelo de lenguaje grande LaMDA. LaMDA de Google es una versión local que compite con GPT-3 de OpenAI, que sustenta la IA conversacional de ChatGPT.

"Este modelo mucho más pequeño necesita significativamente menos poder de cómputo, lo que significa que podremos escalarlo a más usuarios y obtener más comentarios", dijo Prabhakar Raghavan, vicepresidente senior de Google que está a cargo del negocio de búsqueda, durante un evento la semana pasada.

La construcción de la infraestructura para manejar la búsqueda de IA aún es un trabajo en progreso y Microsoft y Google deben resolver muchas cosas, dijo Bob O'Donnell, analista principal de Technalysis Research.

Microsoft se da cuenta de que la informática de IA está evolucionando rápidamente y está abierta a probar y usar nuevo hardware de IA, dijo O'Donnell, quien habló con el equipo de infraestructura de Microsoft en el evento de lanzamiento de Bing AI la semana pasada.

"También dejaron en claro que 'estamos intentando todo, porque está cambiando todo el tiempo. E incluso lo que estamos haciendo ahora va a cambiar con el tiempo; habrá diferencias en el futuro'", dijo O'Donnell.

Es más importante para Microsoft tener una plataforma informática que sea más flexible "que necesariamente un 5% más rápido en una tarea dada", dijo O'Donnell.

"Admitieron que 'mira, vamos a aprender mucho en los próximos 30 días a medida que la gente comience a usar esto y empecemos a ver cómo son realmente las cargas'. Es algo muy dinámico, en movimiento", dijo O'Donnell.

Por ejemplo, Microsoft puede aprender acerca de las horas pico cuando las personas llegan a los servidores con sus solicitudes de búsqueda. Durante los períodos de bajo uso, Microsoft podría cambiar de la parte de inferencia, que es la que arroja los resultados, a la parte de entrenamiento, que requiere más computación GPU, dijo O'Donnell.

Las TPU de Google, introducidas en 2016, han sido un componente clave de la estrategia de IA de la empresa. Las TPU impulsaron AlphaGo, el sistema que derrotó al campeón de Go Lee Sedol en 2016. LaMDA LLM de la compañía se desarrolló para ejecutarse en TPU. La organización hermana de Google, DeepMind, también está utilizando TPU para su investigación de IA.

El chip de Google "tiene importantes ventajas de infraestructura al usar los pods TPUv4 internos en comparación con Microsoft/OpenAI que usa HGX A100 basados en Nvidia" en una implementación de IA sin procesar con optimizaciones mínimas, dijo el fundador de SemiAnalysis, Dylan Patel, en un boletín informativo que presenta los miles de millones de dólares que le costará a Google insertar modelos de lenguaje grande en sus ofertas de búsqueda.

Con el tiempo, los costos disminuirán a medida que las escalas de hardware y los modelos se optimicen para el hardware, escribió Patel.

Facebook ahora está construyendo centros de datos con capacidad para más cómputo de IA. Los clústeres de Facebook tendrán miles de aceleradores, que incluyen GPU, y operarán en un entorno de energía de ocho a 64 megavatios. Las tecnologías de IA se utilizan para eliminar contenido objetable, y los clústeres informáticos impulsarán el futuro del metaverso de la empresa. La compañía también está construyendo una supercomputadora de investigación de IA con 16,000 GPU.

En general, los centros de datos ahora se están construyendo para cargas de trabajo específicas, que cada vez más se basan en aplicaciones de inteligencia artificial y cuentan con más contenido de GPU y CPU, dijo Dean McCarron, analista principal de Mercury Research.

Los proveedores de la nube pasan por largos ciclos de evaluación para elegir las mejores CPU, GPU y otros componentes. El costo total de propiedad es otra consideración.

"Uno de los otros problemas aquí es qué tan flexible es. Porque algunos compradores pueden no querer dedicarse o comprometerse demasiado con una carga de trabajo en particular, sin saber si estará allí en el futuro", dijo McCarron.

Los centros de datos que admiten preferentemente cargas de trabajo de IA verán un poco más de aceptación tanto de GPU como de CPU de Intel, Nvidia y AMD. Algunos pueden elegir aceleradores alternativos para cargas de trabajo de IA, pero podrían coexistir con GPU y CPU.

"Siempre vas a necesitar GPU más rápidas. Diez años en el futuro, en un centro de datos, ¿habrá CPU? Sí. ¿Habrá GPU? Sí, también", dijo McCarron.

Imagen de encabezado creada con DALL·E 2 de OpenAI.