2 ExaFLOPS, tienduizenden CPU’s en GPU’s

2 ExaFLOPS, tienduizenden CPU’s en GPU’s

Argonne National Laboratory en Intel zeiden donderdag dat ze alle 10.624 cijfers van de Aurora-supercomputer hebben geïnstalleerd, een machine aangekondigd in 2015 met een bijzonder hobbelige geschiedenis. Het systeem belooft de hoogste theoretische computerprestaties te leveren op 2 FP64 ExaFLOPS met behulp van een combinatie van tienduizenden Xeon Max ‘Sapphire Rapids’ CPU’s met ingebouwd HBM2E-geheugen plus een ‘Ponte Vecchio’ GPU Max voor het datacenter. Het systeem gaat later dit jaar online.

“Aurora is Intel’s eerste Max Series GPU-implementatie, het grootste Xeon Max CPU-gebaseerde systeem en het grootste GPU-cluster ter wereld”, zegt Jeff McPhee, Intel Corporate Vice President en General Manager, Super Compute Group.

De Aurora-supercomputer ziet er indrukwekkend uit, zelfs door de cijfers. Het apparaat wordt aangedreven door 21.248 universele processors met meer dan 1,1 miljoen cores voor workloads die traditionele CPU-pk’s vereisen en 63.744 reken-GPU’s voor AI- en HPC-workloads. Qua geheugen heeft de Aurora 1,36 petabyte aan HBM2E-geheugen aan boord en 19,9 petabyte aan DDR5-geheugen dat door de CPU’s wordt gebruikt, naast de 8,16 petabyte aan HBM2E van de Ponte Vecchi GPU’s.

De Aurora gebruikt 166 rekken met elk 66 bladen. Het beslaat acht rijen en beslaat een oppervlakte die gelijk is aan twee basketbalvelden. Ondertussen telt het Aurora-opslagsubsysteem, dat 1.024 all-flash-opslagknooppunten gebruikt die 220 TB aan opslag en een totale bandbreedte van 31 TB/s bieden, niet mee. Momenteel geeft het Argonne National Laboratory geen officiële cijfers over het stroomverbruik vrij voor Aurora of het bijbehorende opslagsubsysteem.

De supercomputer, die zal worden gebruikt voor een verscheidenheid aan workloads, van kernfusiesimulaties tot voorspellingen en van aerodynamica tot medisch onderzoek, maakt gebruik van HPE’s Shasta-supercomputerarchitectuur met Slingshot-verbindingen. Ondertussen, voordat het systeem de ANL-acceptatietesten doorstaat, zal het worden gebruikt voor grootschalige wetenschappelijke generatieve AI-modellen.

Terwijl we werken aan acceptatietesten, zullen we Aurora gebruiken om enkele grootschalige open source generatieve AI-modellen voor de wetenschap te trainen.” zei Rick Stevens, associate laboratoriumdirecteur bij Argonne National Laboratory. “Met meer dan 60.000 Intel Max GPU’s, een zeer snel I/O-systeem en een enorm volledig solid-state opslagsysteem is Aurora de perfecte omgeving om deze modellen te trainen.

Hoewel de Aurora-bladen zijn geïnstalleerd, moet de supercomputer nog steeds een reeks acceptatietests ondergaan en doorstaan, wat een gebruikelijke procedure is voor supercomputers. Zodra het met succes is gescand en later in het jaar online is gebracht, wordt verwacht dat het theoretische prestaties van meer dan 2 ExaFLOPS (twee miljard drijvende-kommabewerkingen per seconde) zal halen. Met fenomenale prestaties zal het naar verwachting de eerste positie in de Top500-lijst veiligstellen.

De installatie van de Aurora-supercomputer markeert verschillende mijlpalen: het is de eerste supercomputer in de branche met een prestatie van meer dan 2 ExaFLOPS en het eerste ExaFLOPS-klasse apparaat van Intel. Ten slotte markeert het de conclusie van de Aurora-sage die acht jaar geleden begon toen de reis van de supercomputer behoorlijk wat hobbels kende.

Oorspronkelijk onthuld in 2015, was de Aurora aanvankelijk bedoeld om te worden aangedreven door Intel Xeon Phi-coprocessors en zou naar verwachting ongeveer 180 PetaFLOPS leveren in 2018. Intel besloot echter de Xeon Phi te verlaten ten gunste van computermodules voor grafische verwerking, wat resulteerde in de moeten opnieuw onderhandelen over de overeenkomst met het Argonne National Laboratory om het ExaFLOPS-systeem tegen 2021 te leveren.

De levering van het systeem werd verder vertraagd door complicaties met de Ponte Vecchio-computertegels als gevolg van Intel’s 7nm-productieknooppuntvertraging (nu bekend als Intel 4) en de noodzaak om de tegels opnieuw te ontwerpen voor TSMC’s N5 (5nm-klasse) procestechnologie. Intel introduceerde eind vorig jaar eindelijk zijn GPU Max-datacenterproducten en heeft nu meer dan 60.000 van die GPU’s naar de ANL verzonden.

READ  Helldivers 2 Dev verontschuldigt zich voor de inlogproblemen als gevolg van honderdduizenden flood-servers

You May Also Like

About the Author: Ebert Brink

'Reader. Furious humble travel enthusiast. Extreme food scientist. Writer. Communicator.'

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *