Mreža kabela: Sve komponente uredno su spojene brzom HPE Slingshot komunikacijom.
Nadzor napajanja: „Supek“ u ovom trenutku troši 24 kW električne energije.
Više od osam tisuća procesorskih jezgri, osamdeset i jedan grafički procesor, 32 TB radne memorije, 580 TB spremišta na NVMe SSD-ovima i 1,25 PFLOPS-a. Te brojke krase novo najjače superračunalo u Hrvatskoj, koje je rezultat projekta Hrvatski znanstveni i obrazovni oblak. Uz superračunalo - nazvano „Supek“ - u sklopu projekta stvoreni su i novi resurs za napredno računanje u oblaku „Vrančić“, te resurs za virtualne podatkovne centre „Štampar“.
Tu infrastrukturu izgradilo je Srce uz pomoć drugih znanstvenih ustanova, a sve će biti besplatno dostupno cijeloj znanstvenoj zajednici. Zahtjevne računalne simulacije ili obrada ogromnih količina podataka su u posljednje vrijeme dio mnogih znanstvenih istraživanja. Ovi novi resursi drastično će ubrzati takva istraživanja, te omogućiti neka koja su prije bila neizvediva na nacionalnim resursima. O detaljima novih računalnih sustava imali smo priliku razgovarati s Emirom Imamagićem, predstojnikom Sektora za napredno računanje u Srcu.
Od čega se sastoji superračunalo.
Za razliku od računalnog clustera Isabella, „Supek“ je punokrvno superračunalo. Računalni cluster Isabella je imao sličnu ulogu. Međutim, napravljen je od standardnih, nespecijaliziranih komponenti i u više navrata je nadograđivan, tako da nisu ni sve komponente iste. Superračunalo „Supek“ koristi visoko specijalizirane komponente koje su optimizirane kako bi surađivale s maksimalnom učinkovitošću. To mu omogućava da bude kompaktniji i brži od svega što je postojalo ranije.
Pokušajmo snagu tog novog superračunala usporediti s nečime na što smo navikli. Uzmite solidno osobno računalo i pomnožite sve s tisuću – otprilike toliko je snažan „Supek“. Dakle, ako vam na običnom računalu treba godinu dana da izvršite neki program, „Supek“ će isti zadatak odraditi u nekoliko sati (nažalost, to vrijedi samo ako zadatak može iskoristiti sve jezgre, što često nije slučaj). Sve je to ostvareno najmodernijom tehnologijom proizvođača HPE Cray.
Većina komponenti superračunala nalazi se u kućištu veličine manjeg ormara. U njemu se nalaze moduli, od kojih svaki sadrži četiri CPU čvora ili dva GPU čvora. Većina njih (52 komada) su CPU čvorovi u kojima se nalaze po dva 64-jezgrena AMD Epyc 7763 procesora s radnim taktom od 2,45 GHz i 256 GB RAM-a s taktom od 3.200 MT/s. Još dvadeset čvorova ima po jedan takav procesor i četiri NVIDIA A100 grafička procesora, svaki od kojih ima 40 GB vlastite memorije. Naposljetku imamo još dva čvora namijenjena za aplikacije s velikim memorijskim zahtjevima, koji imaju jednaka dva procesora i po 4 TB radne memorije. Komunikacija između njih ostvarena je HPE Slingshot tehnologijom koja omogućuje propusnost od 200 Gbps uz iznimno nisku latenciju reda veličine mikrosekundi. Kao da to nije dovoljno, grafički čvorovi su spojeni dvostrukom vezom za dvostruko veću brzinu.
Ovakav sustav komunikacije je iznimno bitan za učinkovit rad superračunala, budući da svi procesori moraju efikasno surađivati i izmjenjivati informacije uz najmanje moguće kašnjenje. U još jednom kućištu slične veličine nalazi se spremišni sustav HPE ClusterStor E1000 zasnovan na NVMe SSD-ovima ukupnog kapaciteta 580 TB, namijenjeni za spremanje podataka kojima se često pristupa tijekom rada računala. Naime, još impresivnija od kapaciteta je brzina: 450 gigabajta u sekundi za sekvencijalno čitanje i 238 za sekvencijalno pisanje. Dovoljno struje za sve te komponente daje napajanje koje nije puno manje od samog računala.
Pod punim opterećenjem „Supek“ može povući i do 100 kW električne energije. To sa sobom donosi jedan veliki problem – sva ta snaga nužno se pretvara u toplinu koja mora negdje otići. Iz tog razloga se koristi DLC (direct liquid cooling) tehnologija koja funkcionira tako da iz svakog modula izlaze cijevi debljine palca kroz koje rashladna tekućina struji neposredno pored svih komponenti. Sve one
spajaju se u jednu veliku cijev koja rashladnu tekućinu odvodi do izmjenjivača topline koji toplinu prenosi u vanjski cjevovod kroz koji također struji rashladni medij (glikol se koristi kao rashladna tekućina da ne došlo do smrzavanja kada vanjska temperatura padne ispod 0°C). Vanjski cjevovod odvodi toplinu do ogromnih hladnjaka izvan zgrade, koji tekućinu cijelo vrijeme hlade na 25 °C.
Naravno, da bi računalo bilo što bolje zaštićeno, svi sustavi su redundantni. Napajanje ima ugrađene baterije koje će kratkotrajno napajati računalo u slučaju nestanka struje, sve dok se ne upali dizelski agregat pomoću kojeg računalo može raditi neograničeno vrijeme. Pumpe za hlađenje također su redundantne, a od tri hladnjaka je svaki i sam dovoljan za normalan rad sustava. Konačni rezultat je kompaktan, moderan i pouzdan računalni sustav koji svoju pozamašnu snagu od 1,25 PFLOPS-a može pružati 24 sata na dan.
Emir Imamagić: Predstojnik Sektora za napredno računanje u Srcu.
Ostatak nove infrastrukture.
Istu prostoriju sa „Supekom“ dijele i druga dva računalna sustava, „Vrančić“ i „Štampar“. „Vrančić“ se sastoji od 86 CPU čvorova s dva nešto slabija AMD Epyc 7713 procesora na 2,0 GHz i 512 GB RAM-a, četiri grafička čvora i dva čvora s velikim memorijskim kapacitetom, a svi su sličnih specifikacija kao u superračunalu. Na prvu se dakle čini da je taj sustav slične snage kao „Supek“, no postoji nekoliko bitnih razlika. Jedna od njih je manjak grafičkih procesora kod „Vrančića“ koji znatno smanjuje njegovu primjenjivost na npr. projekte koji koriste tehnologije umjetne inteligencije.
Druga, još važnija razlika je nedostatak iznimno brze komunikacije među čvorovima. Oni su spojeni Ethernetom brzine 2x25 Gbps, no puno veće latencije od Slingshot tehnologije na superračunalu „Supeku“. Prema tome, ovaj sustav je namijenjen većinom za aplikacije koje će se izvoditi
„Vrančić“ i „Štampar“: Druga dva računalna sustava zauzimaju većinu prostorije.
samo na jednom čvoru. Time i dalje nudi puno bolje performanse od osobnog računala i može izvršavati mnoge zadatke u isto vrijeme. Naposljetku, „Vrančić“ nije vodeno hlađen već klasičnim voda-zrak HVAC sustavom sa kompresorskim hlađenjem, zbog čega je mnogo manje kompaktan i zauzima većinu računalne hale podatkovnog centra.
Treći resurs po imenu „Štampar“ nudi infrastrukturu za izgradnju virtualnih podatkovnih centara te deset petabajta podatkovnog prostora u oblaku, namijenjenog za virtualne podatkovne centre ustanova iz sustava znanosti i visokog obrazovanja. Od toga će 2 PB biti dostupno i korisnicima superračunala „Supek“ za pohranu podataka kojima se ne mora nužno pristupati velikom brzinom.
Unutrašnjost superračunala: Vrlo je uredna, vide se samo cijevi za hlađenje.
Kako se koristi superračunalo.
Korisnici se na superračunalo spajaju preko SSH protokola. Postoji jedan pristupni CPU čvor i jedan GPU čvor, koji su po arhitekturi identični ostatku računala, za što postoji vrlo dobar razlog. Zamišljeno je da se aplikacije prevode u strojni jezik na tim čvorovima, tako da ih prevoditelj optimizira upravo za arhitekturu superračunala. Pravilno optimiziranje iznimno je bitno za što brže izvršavanje programa. Da bi se znanstvenicima s time pomoglo, Srce je u sklopu projekt HR-ZOO uspostavilo tim stručnjaka koji mogu pravilno prevesti i optimizirati aplikaciju za što bolje performanse, te testirati radi li sve dobro prije pokretanja. Aplikacija se zatim predaje sustavu za raspoređivanje snage superračunala. Zašto je to nužno, objasnio je g. Imamagić:
„Na superračunalima se uvijek radi sa sustavima za upravljanje poslovima koji točno znaju koliko resursa je slobodno, i ako korisnici u nekom trenutku traže više, neće ih sve pokretati u isto vrijeme. Kada bismo dopustili da svi imaju direktan pristup računalu i da mogu sami pokretati svoje programe, najvjerojatnije bi se sustav vrlo brzo zagušio.“
Kada se netko prijavi i specificira koliko je resursa potrebno za izvršavanje njegove aplikacije, ide na listu čekanja. Kada se odgovarajuća količina resursa oslobodi, aplikacija se pokreće i radi sve dok ne završi. Prednost na listi daje se aplikacijama koje traže više resursa. Kada ne bi bilo tako, manje aplikacije bi vjerojatno cijelo vrijeme zauzimale superračunalo, bez da se ikad oslobodi dovoljno mjesta za neku veću. Uz to, prednost se daje i aplikacijama koje su već dugo na čekanju. Osim tih faktora, bez obzira iz koje institucije dolaze i kakvo istraživanje provode, svi korisnici su ravnopravni.
„Mi smo infrastrukturna ustanova, dakle mi pružamo resurs. Mislim da nije na nama da određujemo čiji rad je važniji ili manje važan . Mi smo tu da znanstvenicima pružimo alat i nama su sva istraživanja jednako važna“, komentirao je g. Imamagić.
Za koga je sve to namijenjeno.
Ukratko, nova infrastruktura napravljena je da ju koristi cijela akademska i znanstvena zajednica u Hrvatskoj. Za što će se točno koristiti novo superračunalo, pojasnio nam je g. Imamagić.
„Superračunalo će se koristiti za istraživačke projekte, za potrebe izrade završnih radova i za potrebe provođenja praktične nastave. Karakteristika sve te tri aktivnosti je što imaju početak i kraj. Ideja je da se „Supek“ ne daje dugotrajno, nego za potrebe konkretnih istraživačkih projekata. Kod tih projekata bitno je da su financirani barem dijelom iz javnih izvora. U tom kontekstu „Supek“ je otvoren i za privatne tvrtke ukoliko one ispunjavaju taj uvjet. Naglasak je, naravno, i na tome da se zaista radi o istraživanju. Nakon što projekt završi, mi tražimo da nam se pošalju radovi koji su u sklopu njega nastali. Budući da smo mi javno financirana ustanova, potrebno je da svi koji su kod nas radili istraživanja svoje rezultate, odnosno znanstvene članke, objave sukladno načelu “otvoreno koliko god je moguće, zatvoreno samo koliko je neophodno“ kako bi se omogućilo njihovo ponovno korištenje te ubrzala istraživanja uz poštivanje zaštite podataka. Gradeći otvorenu nacionalnu e-infrastrukturu Srce doprinosi provedbi načela otvorene znanosti.“
Zanimalo nas je i kako se ostvaruje pravo na pristup, odnosno je li potrebno proći neku posebnu proceduru.
„Ukoliko se radi o istraživačkom projektu, mi smo napravili integraciju s Informacijskim sustavom znanosti Republike Hrvatske CroRIS. To je sustav
Ostatak „Supeka“: U drugom kućištu smješteni su SSD-ovi i pristupni čvorovi.
koji na jednom mjestu sadrži sve informacije o znanstvenicima, projektima i opremi u Republici Hrvatskoj. Ako netko ima projekt koji je već u CroRIS-u, on nam samo kaže da je s tog projekta i mi ga puštamo. Ako pak netko radi završni rad, njegov mentor nam kaže da treba usluge superračunala i mi ga puštamo. Ako se radi o praktičnoj nastavi, nositelj kolegija traži pristup. Međutim, nastojimo za potrebe praktične nastave koristiti resurs „Vrančić“, budući da je na njemu moguće dobiti termin uz puno manje čekanja. Za pristup superračunalu nije potrebno dostaviti nikakve papire, integracija s CroRIS-om nam omogućava da sve bude potpuno transparentno.“
Budući da je superračunalo „Supek“ u pogonu tek kratko vrijeme, htjeli smo znati koliko korisnika je zainteresirano i jesu li
„Supek je cijeli složen s ciljem da dobijemo najbolje što je tada postojalo na tržištu“
„Supek“ i napajanje: Siva kutija koja nije puno manja od samog računala osigurava ogromnu količinu struje koju zahtijeva „Supek“.
Vanjski hladnjaci: uvijek održavaju tekućinu na 25 stupnjeva, čak i ako je vanjska temperatura viša.
već poznati neki istraživački projekti koji će koristiti pomoć novog superračunala.
„U principu, svih četiristotinjak korisnika koji su trenutno na Isabelli su iskazali interes da prijeđu na „Supek“. Ti korisnici prelaze s projekta na projekt, tako da će stalno imati nešto za raditi na superračunalu. Institut Ruđer Bošković nam je trenutno najveći institucionalni korisnik, zatim Sveučilište u Zagrebu Prirodoslovni matematički fakultet i Institut za fiziku, a ukupno surađujemo s 31 ustanovom iz sustava znanosti i visokog obrazovanja. Vjerojatno će ih zbog novih GPU mogućnosti doći još, budući da su snažni grafički procesori vrlo korisni onima koji se bave tehnologijama umjetne inteligencije. Trenutno radimo na pripremanju korisničkih aplikacija za izvođenje na superračunalu.“
Naposljetku, zamolili smo g. Imamagića da usporedi „Supek“ s drugim superračunalima kojima raspolažu nama bliske europske države.
„Što se tiče broja korisnika i samih performansi u odnosu na veličinu populacije, nismo loši. Mislim da smo bolji od većine država naših gabarita. Mađarska, na primjer, kao veća država ima i veće resurse. Slovenija nije veća, no pomoću Zajedničkog poduzeća EuroHPC uspjeli su izgraditi superračunalo „Vega“, od otprilike 7 PFLOPS-a. Česi imaju superračunalo „Karolinu“, koja je također veća. Međutim, bitno je naglasiti da tehnologiju koju mi imamo, dakle potpuno vodeno hlađenje i Slingshot komunikaciju dijelimo s čak tri top 10 superračunala – “Frontier”, najjače superračunalo, “LUMI“, treće najjače računalo i „Perlmutter“ 8. najjače na svijetu. Ukratko, tehnološki smo usporedivi s najboljima, dok po samim performansama ne toliko.“
Nova infrastruktura Srca uvelike će unaprijediti znanstvena istraživanja u najrazličitijim područjima, od kemije i fizike do umjetne inteligencije. Danas gotovo svaka grana znanosti može profitirati od ovakvih računala velike snage, koja će se zasigurno pokazati kao vrlo koristan resurs.