Frontier, najpotężniejszy superkomputer na świecie, napędzany komponentami AMD, jest już na chodzie, ale daleko mu do bycia niezawodnym. Potwierdzają się doniesienia, że co kilka godzin doświadcza awarii systemu, ale to podobno… normalne.
Frontier jest klasą samą w sobie. Posiada 9408 węzłów HPE Cray EX235a, z których każdy jest zasilany przez 64-rdzeniowy procesor AMD Trento 7A53 Epyc wyposażony w 512 GB pamięci DDR4 oraz cztery GPUe/akceleratory AMD Instinct MI250X, 128 GB pamięci HBM2e. Podsumowując, system ma łącznie 602 112 rdzeni CPU i 8 138 240 rdzeni GPU oraz 4,6 PB zarówno DDR4, jak i HBM2e. Prawda, że robi wrażenie?
Frontier, najpotężniejszy superkomputer na świecie, napędzany komponentami AMD, jest już na chodzie, ale daleko mu do bycia niezawodnym.
W maju tego roku Frontier dołączył do TOP500 jako pierwszy superkomputer eksaskalarny, gdyż ukończył test HPL z wynikiem 1,102 ExaFlops/s. Od tego czasu Oak Ridge National Laboratory w Tennessee, które zarządza superkomputerem, przygotowuje go do badań naukowych, które mają się rozpocząć w styczniu.
Pojawiły się jednak doniesienia, że uruchomienie Frontiera może zostać utrudnione przez nadmierne awarie sprzętu. Szukając potwierdzenia tych plotek, Inside HPC postanowiło porozmawiać z dyrektorem programowym Oak Ridge, Justinem Whittem. W wywiadzie potwierdził on, że Frontier doświadcza codziennych awarii systemu, ale stwierdził, że jest to nieuniknione w tak dużym systemie.
„Średni czas między awariami w systemie tej wielkości to godziny, a nie dni” – powiedział. „Musisz więc upewnić się, że rozumiesz, czym są te awarie i że nie ma wzorców tych awarii, którymi trzeba się martwić” - tłumaczy Whitt, dodając, że dzień bez awarii „byłby znakomity”.
Pojawiły się plotki, że problemy sprzętowe powodował nowy akcelerator AMD Instinct MI250X, ale Whitt im zaprzeczył. MI250X jest najpotężniejszym GPU AMD i Czerwoni sprzedają go tylko wybranym partnerom. Posiada 220 jednostek CU zawierających 14 080 rdzeni o taktowaniu 1700 MHz w konstrukcji o mocy 500 W.
„Problemy obejmują wiele różnych kategorii, procesory graficzne to tylko jedna z nich” - stwierdził Whitt. „Odnotowaliśmy spore rozproszenie wśród powszechnych przyczyn awarii. Nie sądzę, abyśmy w tym momencie musieli obawiać się o produkty AMD” – dodał. „Mamy do czynienia z wieloma rzeczami we wczesnym okresie życia, jednak podobne widzieliśmy w innych maszynach, które wdrożyliśmy, więc nie jest to niczym nadzwyczajnym” - zapewnia dyrektor.
Whitt przyznał, że bezprecedensowa skala Frontiera sprawiła, że skonfigurowanie go było „trochę trudniejsze”, ale powiedział, że prace nadal idą zgodnie z harmonogramem ustalonym w latach 2018-19, pomimo opóźnień spowodowanych pandemią.
Zobacz także:
- Europejskie ceny płyt Z790. Najtańsze modele kupimy za mniej niż X670
- Intel Arc A770 i Arc A750 - testy i recenzje
- Bankructwo firmy stojącej za rosyjskimi procesorami Baikal. Prezesowi grozi 10 lat więzienia
Pokaż / Dodaj komentarze do: Frontier - pierwszy eksaskalarny superkomputer zalicza awarie co kilka godzin