Frontier - pierwszy eksaskalarny superkomputer zalicza awarie co kilka godzin

Frontier - pierwszy eksaskalarny superkomputer zalicza awarie co kilka godzin

Frontier, najpotężniejszy superkomputer na świecie, napędzany komponentami AMD, jest już na chodzie, ale daleko mu do bycia niezawodnym. Potwierdzają się doniesienia, że ​​co kilka godzin doświadcza awarii systemu, ale to podobno… normalne.

Frontier jest klasą samą w sobie. Posiada 9408 węzłów HPE Cray EX235a, z których każdy jest zasilany przez 64-rdzeniowy procesor AMD Trento 7A53 Epyc wyposażony w 512 GB pamięci DDR4 oraz cztery GPUe/akceleratory AMD Instinct MI250X, 128 GB pamięci HBM2e. Podsumowując, system ma łącznie 602 112 rdzeni CPU i 8 138 240 rdzeni GPU oraz 4,6 PB zarówno DDR4, jak i HBM2e. Prawda, że robi wrażenie?

Frontier, najpotężniejszy superkomputer na świecie, napędzany komponentami AMD, jest już na chodzie, ale daleko mu do bycia niezawodnym.

Frontier to pierwszy na świecie superkomputer o potwierdzonej mocy ponad 1 EksaFLOPS

W maju tego roku Frontier dołączył do TOP500 jako pierwszy superkomputer eksaskalarny, gdyż ukończył test HPL z wynikiem 1,102 ExaFlops/s. Od tego czasu Oak Ridge National Laboratory w Tennessee, które zarządza superkomputerem, przygotowuje go do badań naukowych, które mają się rozpocząć w styczniu.

Pojawiły się jednak doniesienia, że ​​uruchomienie Frontiera może zostać utrudnione przez nadmierne awarie sprzętu. Szukając potwierdzenia tych plotek, Inside HPC postanowiło porozmawiać z dyrektorem programowym Oak Ridge, Justinem Whittem. W wywiadzie potwierdził on, że Frontier doświadcza codziennych awarii systemu, ale stwierdził, że jest to nieuniknione w tak dużym systemie.

„Średni czas między awariami w systemie tej wielkości to godziny, a nie dni” – powiedział. „Musisz więc upewnić się, że rozumiesz, czym są te awarie i że nie ma wzorców tych awarii, którymi trzeba się martwić” - tłumaczy Whitt, dodając, że dzień bez awarii „byłby znakomity”.

Pojawiły się plotki, że problemy sprzętowe powodował nowy akcelerator AMD Instinct MI250X, ale Whitt im zaprzeczył. MI250X jest najpotężniejszym GPU AMD i Czerwoni sprzedają go tylko wybranym partnerom. Posiada 220 jednostek CU zawierających 14 080 rdzeni o taktowaniu 1700 MHz w konstrukcji o mocy 500 W.

„Problemy obejmują wiele różnych kategorii, procesory graficzne to tylko jedna z nich” - stwierdził Whitt. „Odnotowaliśmy spore rozproszenie wśród powszechnych przyczyn awarii. Nie sądzę, abyśmy w tym momencie musieli obawiać się o produkty AMD” – dodał. „Mamy do czynienia z wieloma rzeczami we wczesnym okresie życia, jednak podobne widzieliśmy w innych maszynach, które wdrożyliśmy, więc nie jest to niczym nadzwyczajnym” - zapewnia dyrektor.

Whitt przyznał, że bezprecedensowa skala Frontiera sprawiła, że skonfigurowanie go było „trochę trudniejsze”, ale powiedział, że prace nadal idą zgodnie z harmonogramem ustalonym w latach 2018-19, pomimo opóźnień spowodowanych pandemią.

Zobacz także:

Obserwuj nas w Google News

Pokaż / Dodaj komentarze do: Frontier - pierwszy eksaskalarny superkomputer zalicza awarie co kilka godzin

 0