Przejdź do treści

Krytyczny błąd w firmware dysków SSD klasy enterprise

  • przez

Na początku tego roku spotkałem się osobiście z bardzo ciekawym, ale i bardzo groźnym przypadkiem.

Nagle, w bardzo krótkim odstępie czasu, zniknęły z pewnej grupy dyskowej (RAID-1) obydwa dyski SSD SAS brandowane jako Dell. Spowodowało to oczywiście tragiczne konsekwencje – zniknęła również cała grupa dyskowa i wszystkie dane. Padły wirtualne maszyny korzystające z tej grupy itd. Macierz kompletnie nie widziała tych dysków – dla niej były to puste kieszenie. Jak wiadomo awarie się zdarzają, tylko pytanie dlaczego 2 dyski padły właściwie dokładnie w tym samym czasie. Logi macierzy raportowały to w odstępie 1s.

Zastosowałem jedyne dostępne rozwiązanie – odzyskanie danych z kopii zapasowej (Veeam). Potem nowe dyski, nowa grupa dyskowa i migracja danych na żywo na nową grupę – to wszystko da się już zrobić bez zatrzymywania wirtualnych maszyn.

Analiza dysków w testowym serwerze Dell – narzędzia PERC oznaczyły dyski jako uszkodzone i pokazywały tylko markę dysków i 0B pojemności. Skojarzyłem, że czytałem artykuł o podobnym błędzie w firmware dysków SSD firmy HPE. Krótkie szukanie w Google – okazuje się, że analogiczny błąd występuje również w dyskach SSD firmy Dell. Wszystko wskazuje na to, że zarówno HPE jak i Dell używały w tamtym czasie dysków firmy SanDisk.

Dyski te po przepracowaniu 32768 lub 40000 h ulegają uszkodzeniu. Nie do odzyskania są zarówno dane jak i same dyski. Producenci udostępnili aktualizacje oprogramowania układowego (firmware). Ale dyski, które osiągnęły wymienioną ilość godzin pracy są stracone. Nie da się już na nich zrobić aktualizacji oprogramowania.

Najgroźniejszy jest fakt, że kupując tej klasy dyski, często w jednej partii, instalowane są one w tym samym czasie, więc pracują one właśnie identyczną liczbę godzin. Jakakolwiek nawet duża nadmiarowość nie chroni przed utratą danych i utratą ciągłości działania.

HPE opublikowało artykuł dotyczący błędu:
https://support.hpe.com/hpesc/public/docDisplay?docId=emr_na-a00092491en_us

Dell również poprawkę (poniżej jedna ze stron):
https://www.dell.com/support/home/pl-pl/drivers/driversdetails?driverid=8h6hj&oscode=w12r2

W sieci można znaleźć wiele artykułów na ten temat.