Principal » Internet » Gandi explică eșecul serverului dvs. ZFS a eșuat

Gandi explică eșecul serverului dvs. ZFS a eșuat

Internet : Gandi explică eșecul serverului dvs. ZFS a eșuat

Operatorul DNS și furnizorul de servicii de găzduire GANDI au înregistrat la începutul anului (opt ianuarie) de eșecul uneia dintre revistele sale stabile de stocare (unitate de depozitare). A suferit 414 de clienți, inclusiv IAAS - infrastructură ca servicii. Despre chestiunea mai tare este doar acum pentru că compania a lansat o declarație detaliată și foarte interesantă cu privire la această problemă.

BSD + ZFS

În IAAS GANDI, utilizează sistemul FreeBSD și o analiză triplă a discurilor de disc furnizate de sistemul de fișiere ZFS. Acest sistem permite clienților să facă infrastructură să facă instantanee. Trebuie remarcat aici că declanșatorul și redundantul rețele de discuri nu sunt un mecanism de backup. Aceasta este metoda de creștere a disponibilității (disponibilitate ridicată), nu securitatea datelor. Există o diferență subtilă în acest sens.

După eșecul unuia dintre serverele de stocare, starea matricei a fost imposibil de restabilit, deoarece ZFS Pula însăși a raportat daune. Schimbarea echipamentului și forțarea importului bazei condus la o situație în care reconstrucția unei condiții bine cunoscute a durat atât de mult timp, ar necesita 370 de ore pentru a termina.

Implementarea veche

Documentația oferită descrieri ale parametrilor potențial accelerând găsirea unei stări consistente, dar versiunea utilizată în Gandi era prea veche și nu le-a implementat. A fost luată o decizie pentru a face ca echipamentul să se conecteze la un nou server, cu o versiune mai nouă a ZFS. S-a utilizat implementarea Linux (ZOL). Gandi citează setările care au fost modificate pentru a evita trecerea prin întreaga piscină și pentru a furniza numai modul de citire. ZOL se ocupă de reconstrucția piscinei, dar restaurarea eficienței datelor și a infrastructurii a durat patru zile (!)

Asteapta-te la neasteptat

Gandi a avut neplăcut să cadă într-un scenariu de problemă interesant. ZFS și sistemul de oglindă triplă utilizată (mai mult de jumătate din discurile din matrice pot muri și nimic nu se va întâmpla) oferă o reconstrucție ușoară în cazul unui eșec și un obturator de acces rapid pentru pacea conștiinței. Problema, necunoscută, cu toate acestea, a provocat, totuși, eșecul metadatelor, iar ZFS nu a fost rezistent la acest lucru. Utilizați imediat o versiune mai nouă pe care accelerarea reconstrucției, ar rezolva problema clienților, dar încă nu a abordat slăbiciunea că eșecurile metadatelor.

Acesta este un exemplu excelent al dificultății de proiectare a mecanismelor de recuperare după eșecurile catastrofale (recuperarea dezastrelor, DR). Necesitatea de a stabili limitele în redundanță poate sări peste omisiunea unor scenarii rare și ciudate. Chiar dacă cineva din echipă sa gândit la o potențială problemă cu metadatele, a fost foarte posibil ca răspunsul să fie ", dar pe ceva ce trebuie să ne bazăm! Cu siguranță că poate fi pus un registru de metadate, ele pot strica toate discurile din matrice, putem construi imediat două servere?".

Între timp, motivul eșecului este încă necunoscut. Echipamentul sa dovedit a fi eficient. Pur și simplu structura logică a datelor a refuzat brusc să se supună. Iar Gandi nu este probabil singura companie care nu are un document "procedură de recuperare a datelor la posibilitatea unei probleme absurde cu integritatea, fără explicații sensibile".

Programe

Actualizări. Actualizări de știri. Vezi mai multe> Securitate software.pro

Recomandat
Lasă Un Comentariu