TOP500 da luz verde a NVIDIA, se acelera y ahorra energía
El nuevo ranking de las supercomputadoras TOP500 pinta una imagen de la informática científica moderna, ampliada con Inteligencia Artificial (IA) y Análisis de Datos (DA) y acelerada con las tecnologías de NVIDIA.
Ocho de las 10 mejores supercomputadoras del mundo ahora usan GPU NVIDIA, redes InfiniBand o ambas. Incluyen los sistemas más potentes de los EUA, Europa y China.
NVIDIA, ahora combinado con Mellanox, alimenta dos tercios (333), de los sistemas TOP500 generales en la lista más reciente, un aumento dramático desde menos de la mitad (203), para las dos compañías por separado pero sumadas en la lista de junio de 2017.
Casi las tres cuartas partes (74%) de los nuevos sistemas InfiniBand en la lista adoptaron NVIDIA Mellanox HDR 200G InfiniBand, lo que demuestra la rápida aceptación de las últimas velocidades de datos para las interconexiones inteligentes.
La cantidad de sistemas TOP500 que utilizan HDR InfiniBand casi se duplicó desde la lista de noviembre de 2019. En general, InfiniBand aparece en 141 supercomputadoras de la lista, un 12% más que en junio de 2019.
Un número creciente de sistemas TOP500 está adoptando GPU NVIDIA, su red Mellanox o ambas.
Las redes NVIDIA Mellanox InfiniBand y Ethernet conectan 305 sistemas (61%) de las supercomputadoras TOP500, incluidos todos los 141 sistemas InfiniBand y 164 (63%) de los sistemas que utilizan Ethernet.
En eficiencia energética, los sistemas que usan GPU NVIDIA se están alejando del grupo. En promedio, ahora son 2.8 veces más eficientes que los sistemas sin GPU NVIDIA, medidos en gigaflops / watt.
Esa es una de las razones por las cuales las GPU NVIDIA ahora son utilizadas por 20 de las 25 supercomputadoras principales en la lista TOP500.
El mejor ejemplo de esta eficiencia energética es Selene, la última incorporación al grupo de investigación interna de NVIDIA. El sistema era el No. 2 en la última lista las Green500 y el No. 7 en el TOP500 general con 27.5 petaflops en el benchmark Linpack.
Las GPU NVIDIA están generando ganancias en eficiencia energética para las supercomputadoras TOP500.
Con 20.5 gigaflops / vatio, Selene está a una fracción de un punto del primer lugar en la lista Green500, reclamado por un sistema mucho más pequeño que ocupó el número 394 por rendimiento.
Selene es el único sistema Top 100 que rompe la barrera de 20 gigaflops / vatios. También es la segunda supercomputadora industrial más poderosa del mundo detrás del sistema No. 6 del gigante energético ENI S.p.A. de Italia, que también usa NVIDIA GPUs.
En el uso de energía, Selene es 6.8 veces más eficiente que el sistema TOP500 promedio que no usa GPU NVIDIA. El rendimiento y la eficiencia energética de Selene se deben a los núcleos Tensor de tercera generación en las NVIDIA A100 GPUs que aceleran tanto las matemáticas tradicionales de 64 bits para simulaciones como el trabajo de precisión más baja para IA.
Las clasificaciones de Selene son una hazaña impresionante para un sistema que tardó menos de cuatro semanas en construirse. Los ingenieros pudieron ensamblar Selene rápidamente porque usaron la arquitectura referencial modular de NVIDIA.
La guía define lo que NVIDIA llama un DGX SuperPOD. Se basa en un componente básico potente pero flexible para los centros de datos modernos: el sistema NVIDIA DGX A100 system.
El DGX A100 es un sistema ágil, disponible, que incluye ocho GPUs A100 en un servidor de 6U con redes NVIDIA Mellanox HDR InfiniBand. Fue creado para acelerar una rica combinación de HPC, DA y trabajos de IA, incluida la capacitación y la inferencia, y para ser rápido de implementar.
Escalado de sistemas a SuperPOD
Con el diseño de referencia, cualquier organización puede configurar rápidamente un clúster informático de clase mundial. Muestra cómo 20 sistemas DGX A100 se pueden vincular de forma similar a un Lego utilizando conmutadores NVIDIA Mellanox InfiniBand switche.
InfiniBand ahora acelera 7 de las 10 supercomputadoras principales, incluidos los sistemas más potentes de China, Europa y los EUA.
Cuatro operadores pueden instalar un clúster DGX A100 de 20 sistemas en tan solo una hora, creando un sistema de 2 petaflops lo suficientemente potente como para aparecer en la lista TOP500. Dichos sistemas están diseñados para funcionar cómodamente dentro de las capacidades térmicas y de potencia de los centros de datos estándar.
Al agregar una capa adicional de conmutadores NVIDIA Mellanox InfiniBand, los ingenieros vincularon 14 de estas unidades de 20 sistemas para crear Selene, que tiene:
● 280 DGX A100 sistemas.
● 2,240 NVIDIA A100 GPUs.
● 494 NVIDIA Mellanox Quantum 200G InfiniBand switches.
● 56 TB/s network fabric.
● 7 PB of high-performance all-flash storage.
Una de las especificaciones más importantes de Selene es que puede ofrecer más de 1 exaflops de rendimiento de IA. Otro es que Selene set a new record utilizando sólo 16 de sus sistemas DGX A100, un punto de referencia de DA clave, llamado TPCx-BB, que ofrece un rendimiento 20 veces mayor que cualquier otro sistema.
Estos resultados son críticos en un momento en que la IA y la Analítica se están convirtiendo en parte de los nuevos requisitos para la informática científica.
En todo el mundo, los investigadores utilizan el DL y el DA para predecir cuáles son las áreas más fructíferas para realizar experimentos. El enfoque reduce la cantidad de experimentos costosos y largos que requieren los investigadores, acelerando los resultados científicos.
TOP500 expande el lienzo para computación científica
La IA, el DA y la transmisión por secuencias están redefiniendo la informática científica.
A medida que los científicos se expanden en el DL y el DA, también están aprovechando los servicios de computación en la nube e incluso transmitiendo datos desde instrumentos remotos en el borde de la red. Juntos, estos elementos forman cuatro pilares de la informática científica moderna que NVIDIA acelera:
● Simulación: en la lucha contra el COVID-19, los investigadores del Laboratorio Nacional de Oak Ridge están simulando 2 billones de componentes en 24 horas, ejecutando AutoDock en GPU en la supercomputadora Summit.
● IA y DA: La GPU para Spark 3.0 ahora ofrece aceleraciones para el front-end crítico y lento de la tubería de aprendizaje automático.
● Transmisión Científica de última generación: el CERN anunció recientemente que las GPUs NVIDIA permitirán una reducción de 500 veces en la gran cantidad de datos producidos por eventos de colisión de partículas dentro de su Gran Colisionador de Hadrones.
● Visualización: el software IndeX y Magnum IO de NVIDIA ayudan a potenciar una visualización del aterrizaje en Marte, la visualización volumétrica interactiva en tiempo real más grande del mundo.
Es parte de una tendencia más amplia en la que tanto los investigadores como las empresas buscan acelerar la IA y el DA desde la nube hasta el borde de la red. Es por eso que los proveedores de servicios en la nube más grandes del mundo junto con los principales OEMs del mundo están adoptando las GPUs NVIDIA.
Por Dion Harris.
Source: Ciencia