Radeon Open Compute „ROCm” Stack v3.1 wydany z RAS dla Vega 7nm, obsługa SLURM dla lepszego zarządzania zasobami, ale wciąż brakuje Navi

Sprzęt komputerowy / Radeon Open Compute „ROCm” Stack v3.1 wydany z RAS dla Vega 7nm, obsługa SLURM dla lepszego zarządzania zasobami, ale wciąż brakuje Navi 2 minuty czytania

AMD Radeon



Nowa wersja Radeon Open Compute lub „ROCm” jest teraz dostępny do pobrania. Radeon Open Compute v3.1 oferuje sporo funkcji, ale, co dziwne, wciąż brakuje wsparcia dla AMD Navi, a także GFX10.

ROCm, najbardziej powszechnie akceptowana uniwersalna platforma do obliczeń z akceleracją GPU, jest teraz dostępna w wersji 3.1. Najnowsza aktualizacja platformy modułowej, która umożliwia producentom sprzętu tworzenie sterowników obsługujących platformę ROCm, zawiera wiele oczekiwanych funkcji, takich jak obsługa RAS dla 7 nm Vega i obsługa SLURM dla procesorów graficznych AMD. Jednak z nieznanych jeszcze powodów ROCm nadal nie ma pełnej obsługi architektury AMD Navi nowej generacji.



Co nowego w Radeon ROCm 3.1:

Największa i najbardziej oczywista zmiana w nowej instalacji Radeon ROCm v3.1 dotyczy struktury katalogu instalacyjnego ROCm. Nowa instalacja zestawu narzędzi ROCm instaluje pakiety w / opt / rocm- teczka. Wcześniej pakiety narzędzi ROCm były instalowane w / opt / rocm teczka.



Nowa wersja ROCm ma ulepszoną obsługę niezawodności, dostępności i łatwości serwisowania (RAS) dla procesorów graficznych Vega 7nm. Ta 7nm praca Vega jest prawdopodobnie pod mikroskopem jeszcze dla „Arcturus” na bazie Vega akcelerator obliczeniowy pojawi się w tym roku. Wsparcie obejmuje:



  • UMC RAS ​​- HBM ECC (wstrzykiwanie błędów nieodwracalnych), wycofanie strony, przywracanie RAS przez reset GPU (BACO)
  • GFX RAS - GFX, MMHUB ECC (nieusuwalny błąd wtrysku), odzyskiwanie RAS przez reset GPU (BACO)
  • PCIE RAS - PCIE_BIF ECC (niepoprawny błąd wtrysku), odzyskiwanie RAS przez reset GPU (BACO)

Radeon ROCm v3.1 otrzymuje również obsługę SLURM dla procesorów graficznych AMD. SLURM lub Simple Linux Utility for Resource Management to jeden z bardzo preferowanych i chętnie używanych systemów zarządzania klastrami i planowania zadań dla klastrów Linux. SLURM jest preferowany ze względu na to, że jest open-source, odporny na błędy i wysoce skalowalny.

Ten system może teraz dobrze współdziałać z procesorami graficznymi AMD. Najnowsza wersja 20.02.0 SLURM zawiera wtyczki AMD, które umożliwiają SLURM automatyczne wykrywanie i konfigurowanie procesorów graficznych AMD. Zbiera również i raportuje zużycie energii przez układy graficzne. Obsługa SLURM jest użytecznym dodatkiem, biorąc pod uwagę rosnącą liczbę wdrożeń super-obliczeniowych z wykorzystaniem procesorów graficznych Radeon i innych większych klastrów GPU AMD.

Pomimo włączenia kilku funkcji, nadal nie ma oznak obsługi GFX10 / Navi w ROCm. Plik Strona GitHub dla ROCm został zaktualizowany, aby odzwierciedlić wszystkie zmiany, uwagi dotyczące instalacji i znane problemy.



Tagi amd