Osnove NAS i SAN sustava (i malo više)

U daljem tekstu upoznati ćemo se s jednostavnijim NAS i SAN sustavima, preko malo složenijih (ZFS) sve do onih klasterskih. Potom ćete vidjeti kako rade i što su uopće “Object Storage” sustavi.

Što su NAS sustavi ?

NAS (Engl. Network Attached Storage) odnosno “mrežno spojena spremišta podataka” osiguravaju nam prostor za spremanje podataka, preko mreže. Ovo su zapravo mrežni dijeljeni sustavi za spremanje podataka, koji rade na razini datoteka (i naravno direktorija) koje pohranjujemo na njih i to preko mrežnih protokola za dijeljenje datoteka.

 

Svako dijeljenje datoteka preko mreže (Engl. Network Share), korištenjem nekog od mrežnih protokola koji postoje za tu namjenu, možemo nazvati upotrebom kao NAS sustava.

 

Dijeljeni pristup datotekama preko mreže omogućavaju nam sljedeći mrežni protokoli. Navesti ćemo one najčešće u upotrebi:

  • NFS (Network Files System) – koristi se uglavnom na Linux/Unix operacijskim sustavima (ili ponekad u Windows okruženju). Open source varijanta podrazumjeva korištenje nekog od nfs daemona (servisa)
  • SMB/CIFS (Server Message Block / Common Internet File System) – koristi se uglavnom na Windows ili Linux okruženjima. Koristi se osim za dijeljenje datoteka i za dijeljenje pisača, i drugih uređaja te dodatnih funkcionalnosti,preko mreže.

    • Open source riješenje se zove samba
    • <li class="level2">
        <div class="li">
          <strong>Windows Share</strong> je integriran u sve Windows operacijske sustave, s ograničenjem od maksimalno 10 paralelnih (otvorenih) konekcija na Windows dijeljeni direktorij ako se radi o verziji Windowsa koja NIJE : Windows Server: 2003/2003 R2/2008/2008 R2/2012/2012(R2)
        </div>
      </li>
      

  • AFP (Apple Filing Protocol) – koristi se za dijeljenje datoteka na Mac OS računalima.
  • Istoj kategoriji pripadaju i FTP (File Transfer Protocol) i TFTP (Trivial File Transfer Protocol) protokoli, s time da su oni jednostavniji i nemaju naprednije mogućnosti kao gore navedeni.
  • Često se koristi i WebDAV (Web Distributed Authoring and Versioning) koji je što se tiće funkcionalnosti negdje između FTP i gore navedenih protokola
  •  

    Najosnovniji primjer upotrebe sustava za koji bi mogli reći da je neka vrsta NAS sustava bi bio klasično dijeljenje nekog direktorija preko mreže, iz Windows OS-a.

    Nešto poput dijeljenja (Engl. Sharing) ovog direktorija (D:\BKP) na slici:

    windows_sharing-1

     

    U slučaju upotrebe na Windows operacijskom sustavu, sve se za jednostavno mrežno dijeljenje svodi na odabir željenog direktorija te njegovog dijelljenja preko SMB/CIFS sustava.

     

    Ako govorimo o “samostalnom” NAS sustavu odnosno uređaju pod nekom od varijanti Unix ili Linux operacijskih sustava, ova procedura se u konačnici uglavnom svodi na nekoliko koraka :

    1. Kreiranje nekog RAID polja diskova, koje ćemo dalje koristiti kao jedan “logički” disk
    2. Particioniranje “logičkog” diska koji ćemo koristiti za dijeljenje datoteka
    3. Formatiranje kreiranih particija (Linux ext3/4 ,Linux XFS, Windows NFS ili sl. (ovisno o operacijskom sustavu NAS uređaja i našim potrebama) )
    4. Mountanje formatirane particije u neki direktorij
    5. Odabir mountanog direktorija te konfiguracija i aktivacija nekog od mrežnih protokola za dijeljeni pristup preko mreže – pogledajte dolje (NFS, SMB/CIFS, AFP ili sl.)

     

    Osnovne pretpostavke i planiranje za NAS ili SAN sustav

    1. Kod odabira NAS ili SAN sustava odnosno poslužitelja, prvo moramo biti svjesni zahtjeva za softverom (operacijskima sustavom). Operacijski sustav za NAS ili SAN može biti :

    • Specijalizirani open source OS poput :
        <ul>
          <li class="level2">
            <div class="li">
              OpenFiler
            </div>
          </li>
      
          <li class="level2">
            <div class="li">
              OpenMediaVault
            </div>
          </li>
      
          <li class="level2">
            <div class="li">
              FreeNAS
            </div>
          </li>
      
          <li class="level2">
            <div class="li">
              Nas4Free
            </div>
          </li>
      
          <li class="level2">
            <div class="li">
              NexentaStor (Nexenta Community Edition)
            </div>
          </li>
        </ul>
      </li>
      
      <li class="level1 node">
        <div class="li">
          ili neko od komercijalnih rješenja za NAS/SAN :
        </div>
      
        <ul>
          <li class="level2">
            <div class="li">
              NexentaStor (Nexenta Enterprise Edition)
            </div>
          </li>
      
          <li class="level2">
            <div class="li">
              TrueNAS
            </div>
          </li>
      
          <li class="level2">
            <div class="li">
              Open-E
            </div>
          </li>
      
          <li class="level2">
            <div class="li">
              …
            </div>
          </li>
        </ul>
      </li>
      

    • ili OS za opću upotrebu, koji ćemo dodatno konfigurirati prema našim potrebama:

        <ul>
          <li class="level2">
            <div class="li">
              Neki Linux koji želimo prilagoditi našim potrebama ili
            </div>
          </li>
      
          <li class="level2">
            <div class="li">
              Windows server koji već imamo te ga želimo optimizirati ili prenamjeniti za NAS/SAN sustav
            </div>
          </li>
      
          <li class="level2">
            <div class="li">
              ili nešto drugo
            </div>
          </li>
        </ul>
      </li>
      

     

    Postoje i gotovi “samostojeći” uređaji koji dolaze zajedno s operacijskim sustavom. Proizvode ih : EMC2, IBM, Dell, NetApp i drugi (oni nisu tema ove priče ).

     

    1. Nakon što smo odabrali operacijski sustav za NAS ili SAN poslužitelj, moramo biti svjesni i njegovih zahtjeva za hardverom:

  • Koji CPU će zadovoljiti naše potrebe
  • Koliko RAM memorije (i koji tip)
  • Koje mrežne kartice: 1Gbps ili 10Gbps, koji modeli (chipovi) i koliko ih je potrebno (jedna, dvije, tri, …)
  • Koji mrežni preklopnik (Switch) odabrati, s kojom verzijom Firmware-a (OS-a) i s kojim funkcionalnostima Pogledajte članak “Switching i routing: jučer, danas, sutra
  • Koji RAID kontroler, s koliko RAM memorije, BBU i sl. odabrati
  • Koje tvrde diskove odabrati
    1. Nakon planiranja resursa koji će nam trebati, potrebno je revidirati točku 2.

     

    Pošto govorimo o NAS i SAN sustavima, ovdje ćemo se fokusirati na dio o RAID kontrolerima i diskovima, pošto ćemo bez njihovog dobrog odabira kasnije u radu doći do problema ili vrlo često gubitka podataka a koji ćemo vrlo skupo platiti ( $$$ ).

     

     

     

     

    Zbog čega RAID kontroler i pažnja pri odabiru diskova

    Krenimo od diskova

    Diskovi se u grubo dijele prema namjeni. U svakom slučaju želimo diskove koji su pouzdani ali i koji su proizvedeni za Tzv. Serversku namjenu u kombinaciji s RAID kontrolerima.

     

    Budite svjesni činjenice da postoje i “serverski” diskovi koji nisu dizajnirani odnosno optimizirani za rad s RAID kontrolerima.

    Za više detalja pogledajte knjigu “Uvod u Linux i Linux napredno{.wikilink1}” , poglavlje :“Podjela prema namjeni diskova{.wikilink1}”

     

    RAID kontroleri

    I ovo je priča za sebe ali svakako želimo imati pošteni hardverski RAID kontroler provjerenoga proizvođača. Dodatno, važna je i verzija Firmware-a za RAID kontroler u kombinaciji s driverom za operacijski sustav na kojemu ga koristite.

    U praksi su se čak i kombinacije određenih verzija Firmware-a i drivera kao i kombinacije Firmware RAID kontrolera i Firmware-a drugih komponenti poslužitelja (pr. matične ploče), pokazale katastrofalnim odabirom.

    Dakle treba si dati malo truda i proučiti što se kupuje, kao i komentare korisnika, za što približniju konfiguraciju vašoj : OS, driveri (RAID. LAN. MB, …), Firmare-i, Softver, …

    Cjenovni opseg poštenih RAID kontrolera (ovisno o broju diskova koje možete spojiti na njega), kreće se od minimalno tisuću KN na više. Sve ispod toga, kao i odabir Tzv. “Integriranih RAID” kontrolera na matičnim pločama (osim ako su u pitanju prave Serverske matične ploče : 5.000+ KN) nemojte niti pomišljati koristiti.

    Za više detalja pogledajte poglavlje “hardverski RAID

     

    Integrirana RAID rješenja

    U ovim “Integriranim” kombinacijama, dobivate upravljački program (driver) i pripadajući softver, koji :

  • je loše dokumentiran ili
  • se jako rijetko održava ili
  • je pun grešaka
  • a u slučaju katastrofe nema definirane korake (što i kako) ili su oni nejasni (a uglavnom i ne rade)
  • Kod ovih rješenja, zapravo ne postoji pravi hardverski RAID kontroler već se većina ili gotovo sve funkcionalnosti RAID kontrolera odrađuju unutar upravljačkog programa (drivera) koji se pretvara da je RAID kontroler. On nadalje operacijskom sustavu prijavljuje RAID polje diskova o kojem se brine, kao jedan fizički disk – slično kako bi to uradio i pravi RAID kontroler.

    I na kraju sve je zapravo prepušteno navedenom softveru (driveru) i operacijskom sustavu, pa što bude. Nakon nekog vremena obično bude : “Nešto ne radi. A kako da vratimo svoje podatke” … e lijepo sam vam rekao.

    Na kraju priče s krivim odabirom tehnologije ili uređaja uvijek završite sa slanjem diskova u neku od tvrtki specijaliziranih za povrat podataka. Ova zabava će vas obično koštati znatno više nego da ste odmah kupili možda i najskuplje komponente koje postoje na (našem) tržištu.

     

    Povrat odnosno spašavanje podataka se često naplaćuje po GB, pa cifre vrlo brzo mogu narasti na desetke tisuća KN.

     

    Opcija dva : Logical Volume Manager

    Zaboravimo na “Integrirane RAID” kontrolere. Druga prihvatljivija opcija je upotreba Tzv. “Logical Volume Managera” unutar operacijskog sustava (govorimo o linuxu). U linuxu se radi o Logical Volume Manageru verzije 2 (LVM2). Za više detalja o LVM2 pogledajte poglavlje LVM2{.wikilink1}.

    I ovdje radi o softverskom RAID-u odnosno njegovoj funkcionalnosti. Ipak ovo je puno sigurnije i stabilnije riješenje od onoga koje dobivamo s upotrebom “Integriranih RAID kontrolera” na matičnim pločama za stolna računala (tj. Ne serverskim matičnim pločama). Ovo je dokazano rješenje koje koristi velika zajednica ljudi, a koje se razvija s otvorenim kodom pa se svaka novootkrivena greška vrlo brzo popravlja. Osim toga vrlo je dobro dokumentirano te postoje dobro definirane procedure u slučaju neke havarije odnosno što i kako napraviti u kojem slučaju.

    Zbog čega je ipak bolji hardverski RAID kontroler i pripadajuće RAID polje

    Zbog toga što će vam na budućem NAS ili SAN sustavu biti pohranjeni važni podaci. Stoga ne želite da se sve snima na samo jedan tvrdi disk, već na više njih i to u RAID polju koje vam osigurava najbolji odnos:

  • sigurnosti podataka (koliko kopija podataka želite – na dva, tri ili više tvrdih diskova istovremeno)
  • brzine rada
  • brze zamjene neispravnog diska i povratka u normalan rad
  • lakoće proširenja kapaciteta RAID polja
  • Dodatno želite RAID kontroler jer ne želite prepustiti nekom traljavom programčiću (mislim na “Integrirana RAID riješenja”) da vam odrađuje ovako važne zadatke pohranjivanja vama osjetljivih i za život tvrtke važnih podataka. A s druge strane želite iskoristiti hardversku snagu pravog RAID kontrolera koji ne opterećuje sustav (CPU/RAM) pošto ima svoj specijalizirani CPU i pripadajuću RAM memoriju.

    Dakle želite ozbiljan zadatak oko RAID-a prepustiti tvrtci koja RAID kontrolere proizvodi profesionalno, kao i njihov pripadajući firmware/softver.

     

    Neka najbolji proizvođač specijaliziranog hardvera i softvera zaradi na onome što radi najbolje.

     

     

    Odabir RAID polja

    Kao što je i odabir dobrog RAID kontrolera važan, važno je i pravilno odabrati RAID polje, ovisno o vašem budžetu i potrebama.

    A sada ponovno bacite pogled na RAID polja u već navedenoj knjizi, u poglavlju : Koja su najčešća RAID polja u upotrebi i koje su im prednosti i mane{.wikilink1} “”

    Skraćena verzija (navesti ćemo par često korištenih RAID polja) :

    RAID polje Brzina Min. broj diskova Koliko diskova se može istovremeno pokvariti Vrijeme od zamjene pokvarenog diska do normalnog rada Jednostavnost proširenja RAID polja
    1 Jednako ili brže od jednog diska 2 1 Brzo Vrlo teško
    5 Brže od RAID 1 3 1 Sporo Teško
    6 Sporije od RAID 5 4 2 Sporo Teško
    10 Najbrže 4 2 Brzo Jednostavnije

     

    I na kraju zbog čega priča o diskovima, RAID kontrolerima i RAID poljima ?

    Kada smo kreirali neko RAID polje (na RAID kontroleru po mogućnosti) slijedeće je na redu upotreba tog RAID polja, preko nekog od mrežnih protokola za NAS (NFS, SNB/CIFS, AFP ili dr.) ili SAN, preko kojih dijelite podatke preko mreže (vrlo jednostavno :-)).

     

     

     

     

    A što je SAN sustav ?

    SAN (Storage Area Network) sustavi s druge strane ne nude mrežno dijeljenje datoteka, već nam osiguravaju mrežni pristup Tzv. “Block-based” mediju. Ovo u praksi znači da SAN sustavi preko mreže praktično dijele svoje diskove ili polja diskova vidljiva klijentskoj (drugoj) strani kao “običan tvrdi disk”. Nadalje takav disk se sastoji od blokova podataka kao i bilo koji lokalni ATA,SATA,SAS ili neki drugi disk. Za više detalja o diskovima pogledajte knjigu “Uvod u Linux”, poglavlje o diskovima.

    Za ovakvo mrežno dijeljenje praktično “sirove” površine diska, potrebi su mrežni protokoli koji nam osiguravaju ovakav pristup.

    Neki od SAN protokola su :

    • Fibre Channel
    • iSCSI
    • ATA over Ethernet (AoE)
    • HyperSCSI.

    Nakon što se klijent preko nekog od gore navedenih SAN protokola spoji (na površinu diska), takav disk se mora prvo particionirati i formatirati kao da se radi o lokalnom disku odnosno disku spojenom na vaše lokalno računalo.

     

     

    Zbog čega uopće koristiti NAS ili SAN sustave

    Zašto bi uopće koristili ovakve sustave ?

    • Zbog potrebe za izradom sigurnosnih kopija vaših podataka (Engl. Backup), na centralni mrežni uređaj (obično NAS):
        <ul>
          <li class="level3">
            <div class="li">
              koji bi morao (i obično je) biti znatno sigurniji jer u pravilo snima podatke na više diskova istovremeno (obično koristi neko RAID polje)
            </div>
          </li>
      
          <li class="level3">
            <div class="li">
              i ima sve ostale komponente kvalitetnije i pouzdanije od “običnog” računala
            </div>
          </li>
        </ul>
      </li>
      

    • Zbog centraliziranog pohranjivanja i upotrebe. Dakle želimo centralizirano mjesto za pohranu :

        <ul>
          <li class="level3">
            <div class="li">
              Svih podataka (datoteka) s kojima radimo
            </div>
          </li>
      
          <li class="level3">
            <div class="li">
              Virtualnih računala, a što je preduvjet za bilo koji rad u klasteru u slučaju potrebe za redundancijom (otpornosti na kvar pojedinog poslužitelja ili njegovog održavanja odnosno nadogradnje ).
            </div>
          </li>
        </ul>
      </li>
      
      <li class="level1">
        <div class="li">
          Zbog pohranjivanja sigurnosnih kopija virtualnih računala i drugih podataka (pr. dokumenti, slike, …) i to na dnevnoj, tjednoj, mjesečnoj, polugodišnjoj ili godišnjoj bazi.
        </div>
      </li>
      

     

    I NAS i SAN sustavi osim čiste pohrane podataka imaju (i moraju imati) i cijeli niz drugih naprednih mogućnosti koje su vrlo važne za ovu namjenu odnosno upotrebu.

     

    Koje opcije bi najminimalnije morali imati NAS/SAN sustavi ?

    Praćenje:

  • performansi sustava
  • RAID kontrolera i svih njegovih polja
  • svakog pojedinog diska (performanse ali i što je još važnije grešaka u radu)
  • servisa/daemona
  • mreže i mrežnih komponenti
  • Napredne opcije:

  • Firewall
  • naprednu konfiguraciju mreže :

    • VLAN-ovi,
    • <li class="level2">
        <div class="li">
          Agregacija/Bonding &#8211; i to nekoliko mogućnosti i protokola
        </div>
      </li>
      

  • mogućnost replikacije podataka na sekundarni NAS/SAN sustav
  • izradu “snapshota” – u zadanim vremenskim okvirima i ručno a koja je po mogućnosti vidljiva i direktno u operacijskom sustavu klijenata (Pr. kao Windows “Previous Versions”)
  • optimizacija svake važnije komponente sustava
  • Prava pristupa : kreiranje korisničkih grupa kao i pojedinačnih korisnika, uz mogućnost integracije s Active Directory ili LDAP servisima.
  • Sve ove “napredne” opcije i parametri vrlo su važni u realnim radnim uvjetima. Naime svaka mreža i IT sustav su specifični i imaju specifične potrebe. Većina IT sustava je osim toga otvorena za mnoge optimizacije (jer ih obično nitko i nije optimizirao, barem ne na profesionalan način). Mnogi će se zapitati da li je ovo stvarno potrebno. U praksi (s kojom sam se sam susreo) reći ću DA.

    Kreće se od optimizacije:

  • operacijskog sustava
  • do mrežne razine (uz pretpostavku da imate pravu mrežnu opremu) koja je preduvjet za bilo kakav imalo ozbiljniji IT sustav. Ovdje se radi o mrežnim parametrima
  • preko optimizacije mrežnih protokola i protokola za NAS ili SAN sustav
  • do optimizacija na razini ispod NAS ili SAN sustava (prema RAID razini)
  • Pogledajte i logičku shemu NAS i/ili SAN sustava na slici dolje:

    raid-i-nas-san-pogled

    Sada ćemo zaokružiti sve naućeno do sada:

    Krenimo od RAID kontrolera

  • RAID kontroler ima svoj centralni procesor i specijalizirani procesor (obično su obije funkcionalnosti integrirane u jednom chipu). Specijalizirani (dio) procesora se zove RAID ASIC i on je zadužen za RAID polja.
  • RAID kontroler ima i svoju ROM i RAM memoriju kao i disk kontroler na koji se zapravo spajaju diskovi
  • RAID kontroler ima svoj “minijaturni” operacijski sustav, niže razine a koji je inicijalno pohranjen u ROM memoriji i iz koje se učitava. Unutar tog “minijaturnog” operacijskog sustava se nalaze metode za pristup svim diskovima spojenim na njega kao i sve potrebno za kreiranje RAID polja unutar kojega će diskovi raditi.
  • Diskovi i njihova veza s RAID kontrolerom te veza s Linuxom (operacijskim sustavom)

  • Promatrajmo diskove koji su u konačnici spojeni na RAID kontroler kao na jednu komponentu koja komunicira s ostatkom računala odnosno operacijskim sustavom i to preko upravljačkog programa (Engl. Driver) za taj RAID kontroler.
  • Operacijski sustav preko upravljačkog programa za RAID kontroler vidi samo polja diskova koja su kreirana od strane RAID kontrolera,i to kao jedan jedini disk. Ako smo kao na slici, kreirali RAID 10 polje unutar kojega se nalaze četiri (4) tvrda diska, operacijski sustav (u ovom primjeru je to Linux), vidjeti će jedan jedini tvrdi disk, koji je zapravo cijelo RAID 10 polje diskova. Taj “logički” disk se s točke operacijskog sustava sastoji od svih dijelova od kojih se sastoji bilo koji “normalan” tvrdi disk (trake, cilindri, klasteri i sektori).
  • Nadalje taj “logički” disk je potrebno particionirati te kasnije formatirati s nekim datotečnim sustavom.

    • Svi programi dalje koriste taj datotečni sustav za pohranjivanje datoteka, što je i slučaj s programima za dijeljenje datoteka preko mreže (NAS) : NFS, SMB/CIFS , AFP , …
    • <li class="level2">
        <div class="li">
          Što se tiće sustava koji pristupaju podacima na razini blokova (SAN sustavi), oni disku pristupaju na razini blokova podataka tj. ispod razine datotečnog sustava.
        </div>
      </li>
      

  •  

     

    U čemu je problem sa standardnim NAS ili SAN sustavima

    Što kada se pokvari ovakav NAS ili SAN sustav odnosno poslužitelj ?

    Obično ako niste imali još jedan sustav na koji ste izrađivali sigurnosne kopije – ostajete bez svih podataka.

    Koliko vam je to važno – da izgubite sve podatke važne za poslovanje vaše tvrtke ?.

     

     

    Slijedeći korak: Klasterski i/ili redundantni NAS sustavi

    Što nam omogućavaju ovakvi sustavi ?

    Osim sigurnosti, jer se sada svi podaci mogu zapisivati na dva ili više uređaja istovremeno, dolazimo i do njihovih ograničavajućih faktora, a to su :

    • Omogućavaju horizontalno skaliranje (nadogradnju) ali uz više troškove – znatno više od cijene samog drugog uređaja
    • Ograničeni su na proširenje prostora tj. kapaciteta (proširenje dodavanjem diskova ili dodatnih uređaja), Pri tome proširenje dodavanjem dodatnih uređaja (ako je to uopće moguće jer za svaki model odnosno seriju redundantnih NAS uređaja postoji ograničenje do koliko se mogu proširivati) – cijene ovdje odlaze u nebo.
    • U konačnici daju nam redundanciju (zalihost/sigurnost od gubitka podataka) uz ekstra cijenu.
    • Uz što veću cijenu, dobivamo i veću brzinu rada
    • To su sve uglavnom rješenja koja su zaštićena i zatvorenog dizajna od strane proizvođača poput (EMC2, IBM, …)

    Redundantni ili Klasterizirani NAS Sustavi

    Redundantni NAS Sustavi

    Redundantni sustavi su nešto jednostavnijeg dizajna jer se ispred njih logički nalazi sustav koji osigurava pristup jednoj jedinoj virtualnoj IP adresi kojoj klijenti i pristupaju (postoje i drugačije implementacije ali ova je najčešća).

    U pozadini se redundantni NAS sustav brine da se svi podaci uredno kopiraju s prvog (NAS-1) na drugi (NAS-2) NAS sustav. U slučaju kvara prvog (NAS-1) sustava, drugi (NAS-2) preuzima njegovu funkciju i svi podaci su sačuvani. Ovakvi sustavi su često izvedeni sa samo dva NAS sustava i rade na principu : Active-Standby (jedan je aktivan a drugi je pričuva).

    Kako logički izgledaju ovakvi sustavi ?

     

    Redundantni NAS sustav, logički izgleda ovako:

    redundantni-nas

     

    Klasterizirani NAS Sustavi

    NAS sustavi koji se nalaze u klasteru (grozd) su obično znatno kompleksnijeg dizajna koji uključuje i razne dodatne hardverske i softverske komponente.

    Svi klijenti u pravilu pristupaju vršnoj klasterskoj komponenti, koja je često izvedena samo u softveru a koja se brine za raspodjelu podataka unutar klastera, na pojedine NAS uređaje.

    Sama replikacija tih (odnosno svih) podataka između pojedinih NAS sustava se često izvodi i u softveru i na specijaliziranom hardveru (na slici bi to odgovaralo donjem sloju). Zbog ovakvog, složenog dizajna i potrebe za posebnim hardverom i njihova cijena je poprilično veća od redundantnih NAS sustava.

     

    Klasterizirani NAS sustavi logički izgledaju ovako:

    klasterizirani-nas

     

    Softverska rješenja

    Postoje i mnoga Open Source softverska rješenja koja nam omogućavaju osnovnu redundanciju ili klasterizirane NAS sustave.

    Neki od njih su :

    • GlusterFS : Omogućava osnovne i nekoliko naprednih razina redundancije :
        <ul>
          <li class="level3">
            <div class="li">
              mirror &#8211; poput RAID 1 između dva NAS sustava (poslužitelja) &#8211; min. 2 puslužitelja,
            </div>
          </li>
      
          <li class="level3">
            <div class="li">
              stripe &#8211; poput RAID 0 između dva NAS sustava (poslužitelja) &#8211; min. 2 puslužitelja,
            </div>
          </li>
      
          <li class="level3">
            <div class="li">
              mirror + stripe &#8211; poput RAID 10 između dva para NAS sustava (poslužitelja) &#8211; min. 4 puslužitelja (1 i 2 u RAID 1, 3 i 4 u RAID 1 , oba para poslužitelja (1,2 + 3,4), vršno u RAID 0, što zajedno čini RAID 10)
            </div>
          </li>
        </ul>
      </li>
      
      <li class="level1">
        <div class="li">
          <strong>pNFS</strong> (Parallel NFS &#8211; od verzije NFS v.4.1+) :Paralelni/Distribuirani NFS &#8211; stabilna (produkcijuska verzija ) je još u izradi
        </div>
      </li>
      
      <li class="level1">
        <div class="li">
          <strong>OCFS2</strong> (Oracle open source) : ima slične mogućnosti kao <strong>GlusterFS</strong>
        </div>
      </li>
      
      <li class="level1">
        <div class="li">
          …
        </div>
      </li>
      

    Svaki od njih ima svoje prednosti i mane kao i ciljanu upotrebu (za koju je i razvijan ili se pokazao kao vrlo dobar)

     

     

     

     

    Redundantni ili Klasterizirani SAN Sustavi

    Slično kao i za redundantne ili klasterizirane NAS sustave – osim sigurnosti jer se sada svi podaci mogu zapisivati na dva ili više uređaja istovremeno, ovdje imamo sljedeće mogućnosti odnosno ograničenja :

  • Omogućavaju veće horizontalno skaliranje (nadogradnju) ali uz znatno više troškove – znatno više od cijena za NAS sustave.
  • Ograničeni su na ekspanziju prostora tj. kapaciteta (proširenje dodavanjem diskova ili dodatnih uređaja), Pri tome proširenje dodavanjem dodatnih uređaja (ako je to uopće moguće jer za svaki model odnosno seriju redundantnih NAS uređaja postoji ograničenje do koliko se mogu proširivati) – cijene ovdje odlaze u nebo.
  • U konačnici daju nam redundanciju (zalihost/sigurnost od gubitka podataka) uz ekstremno visoku cijenu i vrlo kompleksan dizajn.
  • u pravilu uz što veću cijenu, dobivamo i veću brzinu rada
  • To su sve uglavnom rješenja koja su zaštićena i zatvorenog dizajna od strane proizvođača poput (EMC2, IBM, …)
  • Klasterizirani SAN sustavi logički izgledaju slično poput klasteriziranih NAS sustava ali su znatno kompleksniji (i samim time skuplji):

    Klasterizirani-SAN

    Softverska rješenja za SAN i klasterske SAN sustave

    I u ovoj kategoriji imamo nekoliko opensource rješenja koje možete proučiti,a koja su dosta česta u upotrebi – i to obično u kombinaciji s drugim elementima odnosno komponentama (ovisno da li se radi o SAN ili klasterskom SAN rješenju ).

    • DRBD8 (Distribuirani – replicirani “Block Device”) – “Distributed Replicated Block Device” : – praktično RAID1 (mirror) preko mreže, prema principu : Primari poslužitelj → Sekundarni poslužitelj. Potrebna su dva poslužitelja ( nije za sve primjene !)
        <ul>
          <li class="level3">
            <div class="li">
              <strong>DRBD9</strong> (u aktivnom razvoju) : omogućava rad s više poslužitelja, višestruke replikacije i sl.
            </div>
          </li>
        </ul>
      </li>
      
      <li class="level1 node">
        <div class="li">
          <strong>iscsid (open-iscsi)</strong> (iSCSI initiator) servis/daemon za Linux (sam po sebi nije redundantan već pruža osnovnu iSCSI funkcionalnost )
        </div>
      
        <ul>
          <li class="level4">
            <div class="li">
              <strong>device-mapper-multipath</strong> &#8211; DM-Multipath (“Device Mapper Multipathing” ) servis/daemon koji omogućava redundanciju (ili load balancing) prema iSCSI uređajima (SAN storage-ima) (i dalje je pitanje kako sinkronizirati dva ili više SAN storage-a) &#8211; koristi se najčešće kod active/passive SAN sustava
            </div>
          </li>
      
          <li class="level4">
            <div class="li">
              <strong>ALUA</strong> (“Asymmetric Logical Unit Assignment”) nudi load balancing prema SAN storage-u (ostaje isto pitanje sinkronizacije SAN storage-a) &#8211; koristi se za active/active SAN sustave
            </div>
          </li>
        </ul>
      </li>
      

     

     

     

     

     

    ZFS – negdje između

    Ali prvo malo o ZFS-u i tvrtki Sun Microsystems

    ZFS je razvila tvrtka SUN Microsystems, danas u vlasništvu tvrtke Oracle. Ideja je bila riješiti gore navedene probleme, uvesti mnoga poboljšanja i mogućnosti koje su do tada bile dostupne samo kao specijalizirana rješenja ili uopće nisu postojala, te sve integrirati u jednom “proizvodu”.

    ZFS je prema svojoj funkcionalnosti praktično kombinacija:

    • Naprednog RAID kotrolera odnosno “Logical Volume Managera” i
    • Datotečnog sustava s naprednim sustavom kontrole ( ACL) odnosno “Access Listama” za prava pristupa

    Izvorno je bio razvijan unutar tvrtke SUN Microsystems kao zatvoreni kod, unutar njihovog UNIX operacijskog sustava Solaris 2005. godine. Već slijedeće godine je prebačen u open source pod CDDL licencom unutar projekta “OpenSolaris” te je postao sastavni dio Solaris UNIX-a v.10, sredinom 2006. godine.

    Naravno, nakon što ih je kupio Oracle, već nakon par mjeseci cijeli izvorni kod ZFS-a se više nije održavao od strane Oracle-a. Dakle Oracle je prestao s razvojem “OpenSolaris”-a pa je zajednica morala sav kod prebaciti u novi projekt imena “Illumos” ( tu se nalazio i kod ZFS-a ). Zajednica koja je stajala iza projekta “Illumos” preuzela je zadnju verziju dostupnog koda te ga nastavila razvijati. Nakon nekog vremena je pokrenut i projekt “OpenZFS” koji je prihvatila još veća zajednica programera i korisnika ili i sve veći broj tvrtki. Svi zajedno su nastavili s razvojem open source verzije ZFS-a, koja se razvija i danas.

     

     

    Kao i većina programa ili sustava koji su izašli iz tvrtke SUN Microsystems ZFS je razvijan od strane inženjera za inženjere, na najbolji mogući način, kao nedostižni uzor svim ostalim tvrtkama (barem za 99.9999% njih).

     

     

    Borba s open source licencama

    Pošto je ZFS razvijan pod CDDL licencom a koja nije kompatibilna s Linux GPL licencom pod kojom je razvijan Linux kernel, već od početka javnog razvoja (krajem 2005.g i početkom 2006.g.) bilo je jasno da se ZFS ne smije direktno implementirati u Linux kernel.

    Za linux je osmišljeno privremeno rješenje : upotreba preko FUSE frameworka, unutar kojega su se smjeli pokretati programi s drugim licencama. Problem je bio u tome što se FUSE izvršava na višoj razini iznad kernela te je samim time znatno sporiji. Ali i ovo je bilo nešto za početak. Istovremeno s ovom borbom krenulo se u razvoj ZFS-a od nule te je 2013.g. razvijena prva stabilna verzija ( v.0.6.1 ) – iste godine je pokrenut i projekt “OpenZFS”. Godine 2016 s Ubuntu Linuxom v.16.0.4, ZFS koji se razvijao u projektu “OpenZFS” je uključen u ovu distribuciju Linuxa.

    Što se tiće drugih open source UNIX operacijskih sustava poput onih koji su razvijani s BSD licencom : FreeBSD, NetBSD, OpenBSD i drugih ovdje nije bilo problema s korištenjem te je ZFS na njima zaživio vrlo brzo te se smatra (zbog godina korištenja i testiranja/popravljanja) kao jedna od najboljih implementacija u open source operacijskim sustavima.

     

    OpenZFS projekt nudi implementaciju ZFS-a za Mac OS X.

     

     

    ZFS je nastao u želji da se riješe problemi koje niti najnapredniji RAID kontroleri nisu mogli riješiti. Osim rješenja problema, željele su se dodati i neke napredne mogućnosti koje su većini korisnika bile poželjne i dobrodošle.

     

     

    Neki od problema koji su poznati a ZFS ih rješava :

     

  • problemi s RAID5 i RAID6 poljima (pogledajte WIKI)
  • problem kada želimo zamijeniti neispravni tvrdi disk s novim diskom (koji na većini RAID kontrolera mora biti identičan onome koji se mijenja [pr. po broju glava/cilindara/sektora] )
  • problemi odnosno komplikacije kod proširenja RAID polja ovisno o RAID polju
  • problem u slučaju da nam se RAID kontroler pokvario te ga moramo zamijeniti s novim (ovo je ponekad nemoguće jer možemo izgubiti sve podatke )
  • problem kada nam se pokvari pr. matična ploča (MB) te moramo prebaciti sve diskove i RAID kontroler na novi hardver (ovo ponekad može poći po zlu)
  • problem koji nastaje s vremenom – podaci na površini tvrdih diskova postaju nekonzistentni a RAID kontroleri nisu toga svjesni, sve dok ne naiđu na problematični dio površine diska. Ovaj problem se naziva “Data decay” ili “Data rot”. On je znan i kao degradacija podataka na površini diska, a tek najnapredniji RAID kontroleri imaju mogućnost (Engl. disk-scrubbing ) korekcije ovakvih grešaka i to samo do neke granice. Sličan problem nastaje i uslijed grešaka u firmware-u diska ili RAID kontrolera, “fantomskog” zapisvanja (ako podatak nije stvarno zapisan na površinu diska) ili grešaka kod zapisivanja ili čitanja zbog pristupa prema ili od krivih bokova na ili sa površine diska.
  •  

     

     

    Dodatne Funkcionalnosti ZFS-a :

     

  • komprimiranje podataka “u letu”, prema konfigurabilnom tipu (algoritmu) i razini kompresije. S obzirom na dostupne algoritme za ovu namjenu i brzine ali i mogućnosti modernih CPU-a, komprimiranje i dekomprimiranje podataka “u letu” je gotovo neprimjetno. ZFS trenutno podržava slijedeće algoritme za komprimiranje : LZJB, LZ4, ZLE i GZIP.
  • ZFS je i Tzv. “Copy On Write” i “transakcijski” datotečni sustav što znači da se operacije snimanja rade transakcijski (poput transakcija u SQL bazama podataka). To znači da se svaka operacija zapisivanja završava tek kada je potvrđeno uredno zapisivanje (kada je transakcija uredno završila). Performanse su i dalje zadržane naprednim modelom transakcija te uvođenjem posebnog ZIL log-a za operacije snimanja. Ovaj “Copy On Write” model uvodi i :

    • mogućnost izrade Tzv. “Snapshota” odnosno snimke stanja diska/podataka u vremenu te mogućnost povratka na bilo koji trenutak kada je izrađen bilo koji od “Snapshot”.
    • <li class="level2">
        <div class="li">
          mogućnost izrade “klonova” odnosno verzije “snapshota” na kojoj se može i zapisivati
        </div>
      </li>
      

  • mogućnost naprednih ACL-a (sigurnosnih postavki/prava na datotečni sustav ali i na NFS share direktno )
  • … te cijeli niz drugih funkcionalnosti
  •  

     

    ZFS u radu

     

    Nakon što smo instalirali ZFS, na njega dodajemo diskove i kreiramo ekvivalente RAID poljima, slično kao što ih dodajemo u neki hardverski RAID kontroler (što se konfiguracije tiće). Tako je moguće kreirati ekvivalente gotovo svim RAID poljima :

     

    • RAID 0 ( ovdje se naziva stripe ) ,
    • RAID 1 ( ovdje se naziva mirror ),
    • RAID 5 ( ovdje se naziva RAID-Z ili RAID-Z1 ),
    • RAID 6 ( ovdje se naziva RAID-Z2 ),
    • Nešto poput RAID “6” ali s tri paritetna diska umjesto dva – naziva se RAID-Z3
    • RAID 10

     

    S jedinom razlikom da to sve radi bez grešaka i problema koje možemo imati na bilo kojem RAID kontroleru a pogotovo ako nismo prethodno testirali sve scenarije u slučaju nekog kvara. Osim toga na današnjem hardveru to sve radi ekstremno brzo a sve je moguće i dodatno drastično ubrzati uvođenjem :

     

    • L2ARC-a za ubrzavanje operacija ćitanja (read) i /ili
    • ZIL log-a za ubrzavanje operacija pisanja (write)

     

    S time da se za obije metode (L2ARC i ZIL log) mogu koristiti zasebni SSD diskovi a koji dodatno mogu biti i u nekom ekvivalentu RAID polja, da bi se dodatno dobilo na brzini i/ili pouzdanosti.
    Pošto je jasno da je ZFS povezan s NFS-om a i vrlo jednostavno sa SMB/CIFS ili nekim drugim sustavom za dijeljenje datoteka (NAS sustavom) vidljiva je njegova upotreba kao naprednog NAS sustava.

    Jedna od naprednih stvari oko ZFS-a je i u tome što se na bilo kojem ZFS polju diskova (ekvivalent RAID polju) može kreirati poseban “Block device” koji se može koristiti kao iSCSI logički uređaj (disk). Taj logički disk je samo potrebno proslijediti nekom od iSCSI “serverskih” servisa/daemona. Ovime dobivamo upotrebu ZFS-a kao SAN sustava.

    Potencijalna mana upotrebe ZFS-a leži u tome što nije trivijalan kao što je više manje korištenje RAID kontrolera i kreiranje nekog RAID polja. U svakom slučaju potrebna su vam neka naprednija predznanja. ZFS-ove mnogobrojne opcije i funkcionalnosti početnicima mogu izgledati komplicirane ali su profesionalcima definitivno vrlo važne.

    Na kraju krajeva niti ne želite da vam NAS ili SAN sustav “složi” netko onako usput, za sat-dva, uz svoj svakodnevni posao koji obično nema veze s ovom temom, jer bi mogli zažaliti kada nešto krene po zlu. Namjerno nisam napisao “ako” već “kada” jer je uvijek pitanje vremena kada će doći do problema i dali ćete ih biti u stanju riješiti te koliko vremena i novaca će vam biti potrebno za tu “igru”.

    O ZFS-u su napisane knjige i knjige te više nećemo ulaziti dublje u ovaj najbolji “Volume Manager” i datotečni sustav svih vremena. O njemu detaljnije u nekom od slijedećih postova.

     

     

    Proces učenja

    Ako tek krećete s učenjem, prvo si dajte nekoliko dana da bi dobro savladali:

    • osnove Storage tehnologija te napredne mogućnosti
    • osnove rada RAID kontrolera te njihove mogućnosti, način rada i dodatne opcije (uz njihovo razumjevanje)

    I na kraju dodajte još koji dan za proučavanje foruma koji se bave ovom tematikom, kao i foruma od strane proizvođača s pitanjima i odgovorima vezanim za pojedine (konkretne) modele RAID kontrolera koji vam je ušao u użi izbor (ako ste odlučili da čete koristiti RAID kontroler a ne ZFS).

    Kada završite prvu fazu učenja i nakon što ste kupili RAID kontroler, slijedi novo učenje :

    • proučite napredne parametre i testirajte ih (istovremeno testirajte i performanse sustava ovisno o promjeni parametara)
    • testirajte razne scenarije havarija za barem nekoliko RAID polja (pogledajte dolje za ZFS) i povrata podataka , mjerite i vrijeme koje potrebno da se sve vrati na “staro stanje” – i vrijeme potrebno za “recovery” je ponakad ključno za konačan odabir vrste RAID polja (RAID 1, RAID 5, RAID 6, RAID 10, …)
    • sve dobro i detaljno dokumentirajte (ovo ćete najviše cijeniti kad vam se dogodi prva veća greška – višestruko će se isplatiti dani i dani testiranja i dokumentiranja)

    Ako ste krenuli prema ZFS-u tada krenite s proučavanjem osnova:

    Proučite si i pripremite upute iz nekoliko izvora te odvojite još par tjedana za upoznavanje i isprobavanje te smišljajte razne scenarije havarija (i smislite/pronađite najbolje riješenje ) :

    • Kreirajte jedno ZFS polje:
        <ul>
          <li class="level2 node">
            <div class="li">
              a. Mirror (Ekvivalent RAID 1)
            </div>
      
            <ul>
              <li class="level3">
                <div class="li">
                  0. Kreirajte share (NFS ili SMB/CIFS), dodjelite ovlasti i dobro ih naučite (proučite kako se dodjeljuju, nasljeđuju, ne nasljeđuju i sl.), Zapišite određene podatke i pratite performanse kod zapisivanja i čitanja (s različitim parametrima).
                </div>
              </li>
      
              <li class="level3">
                <div class="li">
                  1. Izvadite jedan disk iz ZFS polja, pa ga vratite
                </div>
              </li>
      
              <li class="level3">
                <div class="li">
                  2. Ponovite 1. korak ali prije vračanja diska, obrišite ga
                </div>
              </li>
      
              <li class="level3">
                <div class="li">
                  3. Zamijenite mjesta diskovima (prvi na mjesto drugog i sl.)
                </div>
              </li>
      
              <li class="level3">
                <div class="li">
                  4. Izvadite sve diskove, reinstalirajte cijelo računalo pa vratite diskove i pokušajte importirati staro ZFS polje
                </div>
              </li>
            </ul>
          </li>
        </ul>
      </li>
      
      <li class="level1 node">
        <div class="li">
          b. Obrišite postojeće ZFS polje i kreirajte novo (Pr. RAID-Z)
        </div>
      
        <ul>
          <li class="level3">
            <div class="li">
              Ponovite sve točke : 0 &#8211; 4
            </div>
          </li>
        </ul>
      </li>
      
      <li class="level1 node">
        <div class="li">
          c. Obrišite postojeće ZFS polje i kreirajte novo (Pr. RAID-Z2)
        </div>
      
        <ul>
          <li class="level3">
            <div class="li">
              Ponovite sve točke : 0 &#8211; 4
            </div>
          </li>
        </ul>
      </li>
      
      <li class="level1 node">
        <div class="li">
          d. Obrišite postojeće ZFS polje i kreirajte novo (Pr. RAID-10 : 2 x “mirror” u “stripe”)
        </div>
      
        <ul>
          <li class="level3">
            <div class="li">
              Ponovite sve točke : 0 &#8211; 4
            </div>
          </li>
        </ul>
      </li>
      

    Napravite što više scenarija te:

    • sve isprobajte (testirajte i performanse) i dokumentirajte
    • <li class="level1 node">
        <div class="li">
          isprobavajte rad s osnovnim postavkama, pa sve probajte optimizirati (za svaki scenarij) &#8211; testirate i stabilnost i izdržljivost ovisno o scenariju i opcijama koje ste mijenjali &#8211; uz:
        </div>
      
        <ul>
          <li class="level3">
            <div class="li">
              restart poslužitelja
            </div>
          </li>
      
          <li class="level3">
            <div class="li">
              restart servisa/daemona
            </div>
          </li>
      
          <li class="level3">
            <div class="li">
              namjerno stopirane servise/daemone (uz ručno pokretanje &#8211; naknadno)
            </div>
          </li>
        </ul>
      </li>
      

    U ovim koracima/scenarijima ćete naučiti najviše, te se pribliżiti produkcijskoj primjeni i znanju o ovim sustavima.

     

     

     

     

    Što je slijedeće

    Problemi klasterskih NAS i SAN sustava

    Kao što smo vidjeli u prethodnom poglavlju klasterski NAS i SAN sustavi imaju svoje limitirajuće faktore. Kod većine je to cijena ali i ograničenja skalabilnosti. Naime veći sustavi često trebaju sve veći i veći kapacitet pohrane podataka, koji postaje ili preskup u startu ili zahtjeva vrlo velika ulaganja kod proširenja. I na kraju krajeva svi oni opet imaju svoje limite, najviše sa strane proširenja.

    Kod najvećih igrača poput “Cloud” providera pružanje usluge pohrane velike količine podataka pr. za spremanje virtualnih računala i sl. je svakodnevni posao. Proširivost ovakvih sustava je krucijalna.

    Rani odgovor na ovu problematiku je bio razvoj (i kasnija upotreba) sustava koji uopće ne rade na način na koji rade tradicionalni klasterski NAS ili SAN sustavi.

    Object storage

    I rodio se “Object storage”, koji podatke “promatra” i pohranjuje kao objekte, za razliku od tradicionalnih sustava kod kojih postoji neka struktura datoteka i direktorija (odnosno klasičan datotečni sustav) kod NAS sustava. Ovo je drugačije i od SAN sustava koji rade s blokovima podataka koji se spremaju u sektore na disku (logičkom ili fizičkom).

     

    Kao što RAID kontroler “razlama” neku datoteku na male blokove podataka koje dalje raspoređuje na diskove, ovisno o RAID polju, tako i ovi sustavi “razlamaju” podatke na Tzv. objekte (uz pripadajuće metapodatke), koje onda raspoređuju na poslužitelje u klasteru.

     

     

    Objektni “storage” trebao bi nam nuditi, skalabilni (proširivi) sustav otporan na greške. Ovakvi sustavi su se počeli znatnije razvijati od 1995 godine iako su neki radovi i ideje nastali i znatno ranije.

    Prvo komercijalno riješenje je razvila tvrtka “Centera Technology” koju je odmah kupila tvrtka “EMC²” te je 2002 izbacila na tržište pod tržišnim nazivom “EMC Centera”. Ova linija proizvoda se i danas razvija.

    Smatra se da se u razvoj ove tehnologije od strane neovisnih investitora u prvim godinama uložilo oko 300 milijuna dolara (ova cifra je rasla sve više). Ne računajući ulaganja tvrtki poput : DataDirect Networks, Centera, Atmos, HDS, EMC2, HP, IBM, NetApp, Redhat i drugih a kasnije i od strane “Cloud providera” poput : Amazon AWS, Microsoft (Microsoft Azure), Google (Google Cloud Storage) i drugih.

    Pogledajmo listu nekoliko visoko skalabilnih, redundantnih “Object storage” sustava dostupnih pod nekom od “open source” licenci:

     

  • CEPH (info)
  • Lustre (info)
  • LizardFS (info)
  • Hadoop Distributed File System(info)
  • Moose File System (info)
  • Quantcast File System (info)
  •  

    Kod većih sustava, kao i kod sustava kod kojih korisnici NE žele kupovati super skupi hardver i softver za “Object Storage” sustave, jedno od open source rješenja je “CEPH” o kojemu ćemo govoriti dalje u tekstu.

     

     

     

     

     

    CEPH

    ceph_logo_1_

     

    Ceph je distribuirani objektni sustav za pohranu podataka (Engl. Storage) koji je dizajniran za postizanje odličnih performansi, te sustav koji je visoko dostupan i pouzdan. Osim toga on je krajnje skalabilan odnosno proširiv do razine Exabyte-a.

    Ovo je sustav koji je zbog svog dizajna otporan na greške i kvarove cijelih poslužitelja i/ili pojedinačnih diskova ili grupe diskova, a u većim implementacijama, cijelih ormara punih poslužitelja pa čak i cijelih podatkovnih centara a samim time i desetcima, stotinama ili tisućama diskova. Sve ovisno o konfiguraciji i raspoloživoj opremi.

    Više informacije možete pronaći na : http://ceph.com

     

     

    Malo o povijesti CEPH-a

    Razvio ga je Sage Weil kao temu za doktorski rad na sveučilištu “University of California, Santa Cruz”.

    Razvoj se nastavio u tvrtki “Inktank”. Navedenu tvrtku je kupio “RedHat” , 30.04.2014 (za 175 milijuna U$ u gotovini). Tvrtka “Red Hat” ga nastavlja razvijati do danas (kao i zajednica koja ga koristi). Projekt je i dalje, i ostati će “open source”.

     

     

    Da li postoji i podrška od strane proizvođača hardvera

    Naravno, vrlo brzo nakon učlanjenja u obitelj “Red Hat” svi važniji proizvođači hardvera počeli su nuditi sustave koji su certificirani za CEPH, pr. :

  • HP
  • … i mnogi drugi
  •  

    Osim navedenog hardvera, CEPH se može koristiti i na bilo kojem hardveru koji imate a na kojem se može pokretati bilo koja RedHat ili Debian bazirana distribucija Linuxa, imalo novije generacije. Dakle dostupni su RPM i Debian paketi.

     

    Osim toga dostupan je i izvorni kod CEPH-a, pa je sve moguće kompajlirati i za druge distibucije Linuxa.

     

     

     

    Integracija

     

    CEPH klijent se već standardno nalazi unutar Linux kernela. Server je dostupan ionako kao open source na stranici : http://ceph.com/resources/downloads/.

    Osim navedenog CEPH je trenutno integriran s dvije platforme za virtualizaciju:

  • Open Stackinfo :

    • Integriran je sa : Nova, Cinder i Glance za “Block storage”
    • <li class="level2">
        <div class="li">
          Integriran je sa <strong>Keystone</strong> i <strong>Swift</strong> za “Object storage”
        </div>
      </li>
      

  • Proxmox VE – pogledajte info :

    • “Block storage” za virtualna računala i za Linux kontejnere
  •  

     

     

    Tko ga trenutno koristi

    Koriste ga i najveći igrači, poput :

  • Amazon AWS – prema nekim informacijama, koristi se za neke dijelove S3 Storage sustava
  • Facebook – za neke dijelove sustava
  • CERN – prema podacima od prošle godine – koriste ga za ukupno 1+ PB (za spremanje podataka)
  • DreamHost (Web hosting provider) :

    • 2+ PB za S3
    • <li class="level2">
        <div class="li">
          3+ PB kao “Block Device” &#8211; za virtualke
        </div>
      </li>
      

  • … i mnogi drugi (mnogi i ne žele iznositi što točno koriste iz sigurnosnih razloga)
  •  

     

    Za što se sve može koristiti CEPH

    CEPH iako radi s objektima na najnižoj razini, na vršnoj se može koristiti za tri različite “upotrebe”, i to :

  • Kao “Block Device” i to ako se koristi kao “Rados Block Device” ( RBD ) – vidljiv dalje kao “Block Device” ili logički disk koji se koristi za opću upotrebu (pr. za spremanje diskova virtualki i sl.)
  • Kao “Object Storage” preko “RADOSGW”-a, a koji je “S3” i “Swift” kompatibilan – najčešće se koristi za snimanje/čitanje datoteka bilo kojeg tipa preko web-a (korištenjem “put” ili “get” metoda)
  • Kao “Filesystem” tj. direktno kao datotečni sustav, preko “CEPHFS” – može se “mountati” kao običan datotečni sustav
  •  

     

    Pogledajte i malo više detalja :

     

    ceph-usporedba

     

    Odabirom pojedinog modela :

     

  • CEPH Block Device
  • CEPH Object Stoage” ili
  • CEPH FIlesystem
  • moramo koristiti i dodatne servise odnosno funkcionalnosti koje su nužne za ovakav rad. Prema tome potrebno je detaljnije se upoznati sa zahtjevima i načinom implementacije te konfiguracije svakoga od njih.

     

     

     

     

    Prednosti CEPH-a

     

    Osnovne prednosti CEPH-a (i u kombinaciji s Proxmox VE platformom za virtualizaciju) su :

    • (Relativno) Jednostavan setup i management iz naredbene linije i grafičkog sučelja Proxmox VE
    • “Thin provisioning” (minimalno zauzeće stvarnog diskovnog prostora s podacima)
    • Izrada Snapshot-a podataka (datoteka) u letu (dok se radi na njima)
    • Automatsko popravljanje grešaka u radu (kod ispada diska, poslužitelja i sl.)
    • Ne postoji niti jedna komponenta sustava koja nije redundantna (zalihost)
    • Sustav je skalabilan ( proširiv ) do razine Exabyte-a
    • Moguća je konfiguracija više segmenata (Engl. Ceph Pools) polja za pohranu podataka, te razina performansi/replikacije za svaki segment
    • Svi podaci unutar polja su replicirani, čineći cijelo polje otpornim na kvarove
    • CEPH je moguće instalirati i na pristupačan hardver
    • Nema potrebe za RAID kontrolerima ( “zabranjena” je njihova upotreba – kao i kod ZFS-a (kod kojega je to izričito ZABRANJENO))
    • CEPH je razvijan kao “open source” prema licenci LGPL 2.1

     

     

    Kako se podaci distribuiranju unutar cijelog CEPH clustera

    Koristi se Tzv. CRUSH algoritam i pripadajuća “CRUSH” tablica (koja je distribuirana na više poslužitelja) a koja je zadužen za distribuciju, replikaciju i redistribuciju podataka unutar CEPH clustera.

    CRUSH je dizajniran da omogućava raznoliku upotrebu, ovisno o veličini implementacije.

    Prema tome postoje “CRUSH” tipovi koji opisuju fizičku poziciju CEPH-a unutar cijelog CEPH clustera. Drugim riječima definiramo fizičku hijerarhijsku strukturu svakog elementa unutar hijerarhije :

     

  • root (predstavlja vršnu komponentu cijelog CEPH-a – nazovimu ju “cijelom planetom”)
  • region (predstavlja prvu nižu hijerarhiju – recimo kontinent)
  • datacenter (predstavlja pojedini podatkovni centar)
  • room (predstavlja “sobu” unutar podatkovnog centra)
  • pod (predstavlja logičku podjelu unutar jedne “serverske” sobe) – može predstavljati i jedan dio podatkovnog centra koji može biti podjeljen na više ovakvih potencijalno nezavisnih (što se tiće mreže, napajanje, klimatizacije i sl.) cjelina.
  • pdu “Power Distribution Unit” odnosno podjela prema izvoru napajanja (u podatkovnim centrima ih imamo više pa je ovo dobrodošla dodatna razdioba)
  • row (predstavlja jedan red s ormarima punim poslužitelja)
  • rack (predstavlja jedan ormar s poslužiteljima)
  • chassis (predstavlja jedno kučište unutar kojega može biti više poslužitelja – misli se na “Blade” učilišta)
  • host (predstavlja jedan poslužitelj)
  • osd (predstavlja, u konačnici, pojedinačni disk)
  •  

    Pogledajmo kako to izgleda:

     

    ceph-crush-scheme

     

    Osim toga u svakoj kategoriji u hijerarhiji, može biti i više elemenata na istoj razini – poput ovoga na slici dolje:

     

    ceph-crush-scheme-expanded

     

     

    Ovakav hijerarhijski model nam omogućava stvarno raznolike scenarije upotrebe.

    Stoga CEPH može biti implementiran od najmanjih sustava – pr. s minimalno tri (3) poslužitelja s diskovima a s druge strane na sustavima koji imaju tisuće poslužitelja s diskovima, koji su raspoređeni u konačnici na veliki broj podatkovnih centara.

     

    Pogledajmo nekoliko mogućih scenarija :

    1. Dva podatkovna centra, svaki s par poslužitelja

    crush-map--1

    Vidljivo je da unutar svakog podatkovnog centra (datacenter) imamo dva poslužitelja (host) od kojih svaki ima po tri tvrda diska (osd)

     

    1. Prošireni scenarij u kojemu isto imamo dva podatkovna centra ali sada imamo poslužitelje s običnim (tvrdim diskovima) i poslužitelje sa SSD diskovima. Poslužitelji s “običnim” diskovima su u jednoj “grupi” a oni s SSD diskovima u drugoj “grupi”.

    crush-map--2

     

    2.1. Logička shema dolje prikazuje i inicijalizaciju Tzv. “Pool”-a.

    U CEPH terminologiji “Pool” je ono što bi u RAID-u bilo RAID polje diskova.

    Moguće je imati više “Pool”-ova, svaki sa svojom konfiguracijom.

     

    Pri tome, svaki pojedini Pool može biti za svoju namjenu:

    • brzina
    • pouzdanost
    • vrijeme odziva
    • georeplikacija

    crush-map--2-pool

    U primjeru na slici u svakom podatkovnom centu imamo poslužitelje sa SSD i poslužitelje s običnim tvrdim diskovima.

  • Vršno Pool “hdd” koristi sve poslužitelje koji imaju obične diskove
  • Vršno Pool “ssd” koristi sve poslužitelje koji imaju SSD diskove
  •  

    Kod kreiranja Pool-a (to je korak koji možete vidjeti u tekstu o radu CEPH-a) odabiremo koliko replika će imati, kao i druge parametre.

    Slike za gornja tri primjera su preuzete sa http://cephnotes.ksperis.com/blog/2015/02/02/crushmap-example-of-a-hierarchical-cluster-map

     

     

     

    Kako se zapisuju podaci na CEPH cluster

    Nakon što je definirana hijerarhijska struktura za CEPH cluster (CRUSH) te kreiran ekvivalent RAID polja koji se prema CEPH terminologiji naziva “Pool” sve je spremno za rad (to je opisano negdje od koraka ”CEPH pools“).

    Pojednostavljeno svaka datoteka koja se zapisuje razlama se na manje blokove koji se onda u konačnici zapisuju odnosno distribuiraju na dostupne poslužitelje i njihove diskove.

    Dakle ako smo za određeni Pool na kojem radimo, kod kreiranja odabrali da je broj Replika odnosno prema CEPH terminologiji “CEPH Pool Size” jednak tri (3) to znači da se podaci zapisuju na odredišni poslužitelj a potom na jod druga dva (2) poslužitelja. Tako da ćemo u ovom slučaju isti podatak imati sveukupno na tri (3) mjesta.

    Veličina bloka je standardno 4 MB ali se može promijeniti do razine više MB – ovisno o vrsti podataka koje zapisujemo ili čitamo. To znači da je za neke primjene ova veličina zadovoljavajuća a za neke je ova veličine premalena jer se zapisuju ili čitaju podaci koji zahtijevaju dohvaćanje većih blokova podataka odjednom. Promjenom veličina bloka možemo poboljšati performanse i smanjiti opterećenje sustava – zbog smanjenja broja operacija dohvaćanja velikog broja malih objekata.

     

    Ulazno/izlazne operacije prema diskovnom sustavu kod pisanja ili čitanja se zovu IOPS-i. Klasični (magnetski) odnosno “mehanički” diskovi su znatnije pogođeni ovim operacijama od SSD diskova. Dakle SSD diskovi u prosjeku mogu podnijeti desetke, stotine i tisuće puta više ulazno/izlaznih operacija u sekundi, od mehaničkih/magnetskih diskova

    Proces distribucije podataka

    Podaci se distribuiraju na cijeli CEPH cluster, sve njegove poslužitelje i njima dostupne tvrde diskove, te se istovremeno radi replikacija, svakog bloka podataka na drugi poslužitelj odnosno disk na njemu. Sve prema tome kako je konfigurirana hijerarhija za CRUSH te koliko replika smo odabrali za određeno CEPH polje odnosno Pool.

    Proces zapisivanja i dodatno replikacije, radi se transakcijski (pogledajte ZFS i transakcijski model) – zbog konzistentnosti podataka.

    Kod procesa čitanja se također prema klasterskoj tablici i CRUSH algoritmu zna (određuje/izračunava) koji blok podataka je završio na kojem poslužitelju, i na kojem disku na njemu, te se počinje s čitanjem blokova podataka – sa svih poslužitelja i svih diskova.

    U konačnici sve se svodi na to da se podaci zapisuju na sve poslužitelje te se kod čitanja također čitaju sa svih njih. Ovime se znatno povećavaju performanse : što više poslužitelja to je brže zapisivanje ili čitanje.

     

     

    Redistribucija podataka

    Što u slučajevima kada se primjerice :

     

  • poslužitelj gasi (zbog kvara, održavanje ili bilo kojeg razloga) ili se dodaje novi
  • dodaje se novi poslužitelj
  • dodaju se novi diskovi u postojeće poslužitelje ili se neki diskovi vade
  •  

    Tada CEPH radi Tzv. redistribuciju podataka.

    Pogledajte sliku upotrebe CEPH-a na Proxmox VE platformi za virtualizaciju:

    proxmoxve-ceph--re-distribucija---1

    Na slici su vidljiva samo dva poslužitelja 225x i 224x (iako su u testu bila tri (i 223x)) od njih svaki ima po 8 tvrdih diskova:

     

    Poslužitelj Diskovi Kapacitet diskova
    225x OSD.8
    OSD.9
    OSD.10
    OSD.11
    OSD.12
    OSD.13
    OSD.14
    OSD.15
    832 GB dostupnog kapaciteta
    832 GB dostupnog kapaciteta
    832 GB dostupnog kapaciteta
    832 GB dostupnog kapaciteta
    832 GB dostupnog kapaciteta
    832 GB dostupnog kapaciteta
    832 GB dostupnog kapaciteta
    832 GB dostupnog kapaciteta
     224x OSD.0
    OSD.1
    OSD.2
    OSD.3
    OSD.4
    OSD.5
    OSD.6
    OSD.7
    832 GB dostupnog kapaciteta
    832 GB dostupnog kapaciteta
    832 GB dostupnog kapaciteta
    832 GB dostupnog kapaciteta
    832 GB dostupnog kapaciteta
    832 GB dostupnog kapaciteta
    832 GB dostupnog kapaciteta
    832 GB dostupnog kapaciteta
    223x OSD.16
    OSD.17
    OSD.18
    OSD.19
    OSD.20
    OSD.21
    OSD.22
    OSD.23
    832 GB dostupnog kapaciteta
    832 GB dostupnog kapaciteta
    832 GB dostupnog kapaciteta
    832 GB dostupnog kapaciteta
    832 GB dostupnog kapaciteta
    832 GB dostupnog kapaciteta
    832 GB dostupnog kapaciteta
    832 GB dostupnog kapaciteta

     

    Pogledajte stupac “Used” i to postotke (kreću se od 0.27 do 0.31).

    Kod dobro balansiranog sustava, postotak zauzeća (upotrebe) svih diskova mora biti podjednak. Za to su zaduženi automatizmi o kojima ćemo malo kasnije.

    Dodavanjem novog diska, vađenjem jednog od njih ili dodavanjem/izbacivanjem cijelog poslužitelja sa svim diskovima CEPH kreće u redistribuciju svih podataka. To znači da ako smo recimo dodali novi poslužitelj s osam diskova (detaljnije se radi i o koeficjentu svakog diska ovisno o njegovom kapacitetu i drugim parametrima) podaci se preraspoređuju unutar cijelog klastera i svih diskova, tako da svi diskovi na svim poslužiteljima budu podjednako zauzeti.

    Ovo je vrlo važno jer se nakon dovršetka redistribucije podaci tada počinju zapisivati ili čitati i s tog novog poslužitelja ili novog diska, ravnomjerno koristeći sve resurse (poslužitelje i diskove) klastera.

     

    Za Redistribuciju kao i za replikaciju podataka, koristi se (preporuča) zasebna mreža – da se ne opterećuje “radna” mreža.

     

    Prema CEPH preporukama, potrebno je imati dvije zasebne mreže :

  • “Public Network” – preko nje čitamo i pišemo podatke na CEPH
  • “Cluster Network” – preko nje se odrađuju sve ostale radnje poput redistribucije i replikacije podataka
  •  

     

    Logička shema cijelog sustava

    Logička shema je vidljiva na slici:

    ceph-pool-osd-and-pg

    Opis :

    • Podaci se spremaju kao objekti
    • Objekti se nalaze unutar Pool-a
        <ul>
          <li class="level2">
            <div class="li">
              Standardna veličina objekta je 4MB
            </div>
          </li>
        </ul>
      </li>
      
      <li class="level1">
        <div class="li">
          Objekti se grupiraju u “Placement Grupe” (PG). Placement Grupe su distribuirane preko više OSD-ova (diskova)
        </div>
      </li>
      
      <li class="level1">
        <div class="li">
          OSD-ovi se koriste za stvarnu distribuciju (“read” i “write” operacija) objekata na tvrde diskove
        </div>
      </li>
      
      <li class="level1">
        <div class="li">
          “CRUSH” tablica/konfiguracija se koristi za kreiranje i kasniju upotrebu i distribuciju objekata (podataka) unutar svakog pojedinog “<strong>Pool</strong>-a” za cijeli CEPH klaster. (Moguće je imati i više <strong>Pool</strong>-ova s različitim konfiguracijama).
        </div>
      </li>
      

     

    Pool promatrajte kao RAID polje.

     

     

    Malo detaljnije

     

    Iako se podaci u konačnici zapisuju kao objekti, odnosno najmanji blok podataka je jedan objekt, standardne veličine 4MB, objekti se prvo grupiraju u Tzv. “Placement” grupe. Ove “Placement” grupe prema tome povezuju niz objekata koji su dalje raspoređeni na niz OSD-ova. Pohrana objekata na OSD-ove znači pohranu na niz tvrdih diskova, raspoređenih na više poslužitelja – ovisno o Pool-u i hijerarhijskoj strukturi definiranoj u CRUSH tablici/konfiguraciji.

     

    Prisjetimo se da “CRUSH maps” tablica/konfiguracija definira fizičku topologiju cijelog CEPH klastera koju koristi CRUSH algoritam za određivanje (izračun) točnih pozicija na koje će se podaci (u konačnici objekti) i njihove replike spremati odnosno čitati.

     

    Sve operacije čitanja i pisanja se zapravo rade na razini svake pojedine “Placement” grupe a ne na razini svakog pojedinog objekta. U protivnom bi rad na razini svakog pojedinog objekta uz dohvaćanje metapodataka za svaki objekt drastično usporilo cijeli sustav.

    “Placement” grupe rješavaju problem s performansama, jer se transakcije događaju na razini PG-a, kao i pohranjivanje ili baratanje s pripadajućim metapodacima, koje su definirani za cijelu placement grupu a n pojedini objekt u njoj.

    CEPH kod čitanja ili pisanja radi na razini “placement” grupa i njihovih metapodataka (koji ih opisuju), i to transakcijski.

    Osim poboljšanja performansi,uvođenjem “Placement” grupa, poboljšala se i skalabilnost (proširivost) cijelog CEPH sustava.

    Odnos između broja objekata i broja “Placement” grupa se može okvirno izračunati ili utvrditi testiranjem. Prema preporukama, osnovna formula za izračun  je :

     

    pg-calc-formula-classic

     

    Za što bolji odabir odnosno izračun broja “Placement grupa” potrebo je uzeti i druge parametre (o tome kasnije).

     

    Pool i PG

    Možemo promatrati “Placement” grupe (PG) kao segmente unutar svakog logičkog Pool-a odnosno polja (objekata) na koje se logički “spaja” svaki CEPH klijent za čitanje ili pisanje na CEPH klaster.

    Dakle CEPH vršno gledano, sprema podatke unutar Pool-a, koji predstavlja logičku grupu PG-ova. Pool se brine i o tome koliko je primjerice replika potrebno izraditi kod svakog zapisivanje podataka. CEPH može raditi i “snapshot” Pool-a, u bilo kojem trenutku – kao “snimku stanja u vremenu”.

     

     

     

    CEPH Block Device (Rados Block Device) tj. RBD

     

    Mi ćemo se dalje u tekstu fokusirati na upotrebu “CEPH Block device”-a.

    Prema tome druga dva modela (“CEPH Object Storage” i “CEPH Filesystem”) više nećemo spominjati.

    Potrebne funkcionalnosti (CEPH Roles) za RBD

    Kao što smo rekli za svaki od CEPH modela, potrebne su određene funkcionalnosti na strani CEPH poslužitelja u CEPH klasteru.

    Za upotrebu CEPH-a kao “Block device”-a tj. kao RBD-a, potrebne su nam dvije funkcionalnosti odnosno “uloge” poslužitelja. To prema definiciji znači da moramo imati poslužitelje od kojih je svaki zadužen samo i isključivo za jednu ulogu:

     

    • uloga Monitor poslužitelja (Engl. Monitor Node)
    • uloga OSD poslužitelja (ovo su poslužitelji na kojima se nalaze tvrtdi diskove koje ćemo koristiti u CEPH klasteru).

     

    Preporuka za najosnovniju upotrebu kao CEPH RBD, bi bila:

     

    • minimalno 3 poslužitelja s ulogom “Monitor”
    • minimalno 3 poslužitelja s ulogom “OSD”

     

    Mi ćemo, s obzirom da imamo samo tri poslužitelja s diskovima (koje želimo koristiti kao CEPH kalster za “Block device”) te stoga što što ne tražimo ekstra/turbo brz/proširiv/… sustav, napraviti slijedeće.

    Uloge poslužitelja:

    • Poslužitelj 1 : OSD i MONitor
    • Poslužitelj 2 : OSD i MONitor
    • Poslužitelj 3 : OSD i MONitor

     

    Dakle svaki poslužitelj će imati i OSD i MONitor ulogu. S ovime smo na malo zaobilazan način osigurali da imamo i tri OSD-a i tri MONitora.

     

     

    Zbog čega minimalno tri (3) poslužitelja za klaster

    Većina klastera u radu rade na principu ”Quoruma“ dakle tri je najmanji broj poslužitelja u kojemu minimalna većina (dva) poslužitelja sudjeluju u dogovaranju i provjerama rada.

    Ovdje se radi o sustavu “glasovanja” i izbora što znači da svaki poslužitelj ima jedan glas za glasovanje. Ako su samo dva poslužitelja u sustavu glasovanja izbori su nemogući. Prema tome za sustav glasovanja je potrebno minimalno troje.

     

    Quorum pojednostavljeno

    U ovakvim minimalnim klasterima s tri poslužitelja, u svakom trenutku moraju biti aktivna i funkcionalna dva (2) poslužitelja. Ovo ne mora čak značiti da je jedan poslužitelj ugašen već možda ne radi kako treba, pa daje pr. krive rezultate (ili ih ne daje uopće) tada se ta zadnja dva pokušavaju sustavom “glasovanja” dogovoriti. Ovakav sustav “Quoruma” se koristi i kod klasterskih sustava za virtualizaciju pr. Proxmox VE cluster.

    Zamislimo tri poslužitelja koja imaju “Cluster Map” tablicu s pripadajućom verzijom tablice i njen hash/checksum koji govori o tome da li je integritet tablice narušen.

     

    Primjer :

    Prva dva poslužitelja kažu da im je zadnja verzija v.234 te HASH : A348F3609D a treći poslužitelj tvrdi da je njegova zadnja verzija v.252 te HASH : 35D56FAB5D. Dogoditi će se to da će prva dva nadglasti treći iako ima veći broj verzije (što bi značilo da je novija) te se on IZBACUJE iz klastera te se više ne uzima u obzir koje slijedeće provjere (sve dok i on ne bude imao sve iste “podatke” kao i preostala dva). Obično kod ovakvih sustava postoje Tzv. “Izbori” za klaster “Mastera”, a koji se događaju svakih nekoliko sekundi (pr. svakih 15. sekundi). Dakle u jedinici vremena unutar koje se događaju izbori (ili reizbori) za “Mastera” tj. “Primarnog” poslužitelja, svaki poslužitelj ima određeni prioritet: Pr. :

    • Prvi poslužitelj – prioritet 1
    • Drugi poslužitelj – prioritet 2
    • Treći poslužitelj – prioritet 3

     

    Ako se recimo onaj s najmanjim brojem prioriteta bira za “Master”-a (tj. “Primarnog”) , tada će “Prvi poslužitelj” postati “Master” ako je sve u redu s njegovim verzijama i integritetom. Ako nije tada će “Master” postati onaj s prioritetom 2 tj. “Drugi poslužitelj” itd. Dakle svakih recimo 15. sekundi se odabire novi “MAster”.

     

    “Master” je obično zadužen za vrlo važne operacije odlučivanja – koji će poslužitelj biti izbačen iz klastera te će on to i fizički napraviti (obično zapisati u datoteku u kojoj je lista aktivnih poslužitelja u klasteru). Ova funkcionalnost je ne zahtjevna prema resursima ali kao što je vidljivo, vrlo važna. “Master” osim toga radi još nekoliko resursno ne zahtjevnih zadaća – ovisno o vrsti i tipu klastera.

     

    Ovo znači da ako primjerice restartamo cijeli klaster (recimo zbog nadogradnji sustava), da to radimo oprezno. Prvo jedan poslužitelj, pa kada je on potpuno funkcionalan nakon restarta, drugi, pa kada je drugi nakon restarta funkcionaln, tek onda treći.

    MONitor uloga u CEPH clusteru

    MONitor uloga mora biti instalirana na minimalno tri poslužitelja. Ona se brine o:

    • tome koji poslužitelji u CEPH klasteru su živi OSD poslužitelji i koji su sve dostupni diskovi (OSD-ovi).
    • Pohranjuje i održava 5 “tablica/konfiguracija”:
        <ul>
          <li class="level2">
            <div class="li">
              <strong>Monitor map</strong> &#8211; tablica s MONitor poslužiteljima
            </div>
          </li>
      
          <li class="level2">
            <div class="li">
              <strong>OSD map</strong> &#8211; tablica s OSD poslužiteljima/diskovima
            </div>
          </li>
      
          <li class="level2">
            <div class="li">
              <strong>PG map</strong> &#8211; tablica s PG (Placement Group)- grupama za pohranu objekata
            </div>
          </li>
      
          <li class="level2">
            <div class="li">
              <strong>CRUSH map</strong> &#8211; “CRUSH” hijerarhijska tablica/konfiguracija
            </div>
          </li>
      
          <li class="level2">
            <div class="li">
              <strong>MDS map</strong> (za <strong>MDS</strong> ulogu [koristi se samo za <strong>S3</strong> ili <strong>Swift</strong> tj. za upotrebu kao “Object Storage”])
            </div>
          </li>
        </ul>
      </li>
      

     

    OSD = Object Storage Daemon. Servis (daemon) je to zadužen za rad s objektima i njihovu distribuciju te u konačnici snimanje na tvrdi disk. Jedan OSD daemon (servis) je zadužen za jedan tvrdi disk.

    Dakle OSD poslužitelj koji ima osam (8) tvrdih diskova, ima i pokrenuto osam (8) OSD daemona (servisa).

     

     

     

    OSD uloga u CEPH clusteru

     

    Ovu ulogu moraju imati minimalno tri (3) poslužitelja.

    OSD uloga je zadužena za :

    • Spremanje objekata na lokalni datotečni sustav (u konačnici na “OSD” tvrtde diskove ) i omogućavanje pristupa objektima preko mreže
    • zadužena je za replikaciju objekata koji se zapisuju na konkretni OSD (Daemon/servis) odnosno tvrdi disk. Dakle radi replikaciju objekata koji završe zapisani na OSD (Tvrdi disk) prema drugom OSD (tvrdi disk) – ovisno o “Cluster Map”-i i drugim parametrima (tj. o “Pool”-u ili ekvivalentu RAID polja koje se rsprostire na poslužitelje i diskove u CEPH klasteru).
    • korištenje journaling mehanizama kod zapisivanja podataka na OSD (disk) prema transakcijskom modelu. Dakle svaka operacija zapisivanja (Engl. Write) na CEPH sustav se radi transakcijjski s privremenim zapisivanjem transakcije na “Journaling” particiju. Kod visoko optimiziranih sustava, koriste se “Serverske” verzije SSD diskova za “Journaling”.
    Pogled na CEPH

    Pogledajmo kako logički izgleda cijeli CEPH, sada kada smo se upoznali sa svim važnijim elementima.

    ceph-top_level_view

    U gornjem dijelu slike je vidljiv izgled jednog OSD poslužitelja s pet tvrdih diskova. Svaki tvrdi disk mora imati minimalno jednu particiju, koju možemo formatirati s nekim od predloženih datotečnih sustava:

  • xfs (preporuka)
  • ext4 ili
  • btfrs
  • Dodatno, potrebna nam je još jedna particija (ili zaseban disk ili polje diskova s dodatnom particijom za “Journaling”)

    U konačnici, na postojeću particiju koja je namjenjena za CEPH, na datotečni sustav kreira se struktura direktorija u koju se spremaju CEPH objekti kao i njihovi pripadajući metapodaci.

    U donjem dijelu slike je vidljiva pozicija svakog pojedinog OSD poslužitelja (s svim njegovi “OSD” diskovima) te pozicije svih MONitor poslužitelja. Dakle vidljiv je CEPH sustav sa ukupno 30 poslužitelja i to :

  • tri CEPH MONitor poslužitelja i
  • 27 CEPH OSD poslužitelja.
  • Sada zamislimo upotrebu u kojoj imamo poslužitelje za virtualizaciju, koji koriste ovakav CEPH sustav (sa svih 30 poslužitelja) kao disk storage sustav, dakle za spremanje virtualnih diskova virtualki.

    Pogledajmo sliku kako to izgleda sa strane Virtualnog računala odnosno platforme za virtualizaciju prema CEPH sustavu (od gore do dolje)

     

    ceph-vm-view

    Ovdje je vidljiv način pristupa CEPH “Block device”-u tj. logičkom “blok” uređaju odnosno disku koji predstavlja cijeli CEPH cluster. Na primjeru su dvije česte platforme za virtualizaciju:

  • OpenStack i
  • Proxmox VE
  • Platforma za virtualizaciju za svako virtualno računalo koje koristi virtualni tvrdi disk (koji je zapravo “blok uređaj” tj. logički tvrdi disk od cijelog CEPH klastera ), koristi QEMU (i Linux KVM).

     

    QEMU i Linux KVM su zaduženi za sve potrebne funkcionalnosti da bi se virtualizacija uopće mogla koristiti. Dakle oni simuliraju sve virtualne komponente svakog pojedinog virtualnog računala (Matična ploča i njen BIOS, CPU, mrežna kartica i njen BIOS, disk kontroler i njem BIOS te pripadajući virtualni tvrdi disk, …)

    Qemu kao Hipervizor ima nadalje metodu za korištenje svakog pojedinog virtualnog diska koji se zapravo nalazi unutar CEPH klastera ( kao “Block device” ). QEMU se tada spaja kao klijent na CEPH klaster i to na točno određeni CEPH Pool te njega koristi kao da je “polje diskova” na nekom SAN sustavu (jer govorimo o upotrebi CEPH-a kao “Block device-a” tj. kao RBD)

    A sada pogledajmo kako to izgleda sa strane “CEPH Block Device”-a odnosno blok uređaja, kao krajnje komponente, koja na kraju stvarno pristupa CEPH klasteru za čitanje ili zapisivanje podataka. Ovdje zapravo QEMU kao CEPH klijent pristupa CEPH polju :

    ceph-write-block-device

    Klijent 1 piše ili čita na ili sa CEPH RBD

    1. Kod procesa čitanja ili pisanja na “Block device” tj. CEPH RBD ,klijent koji žali nešto zapisati ili pročitati iz CEPH clustera koji koristi kao blok uređaj (logički kao tvrdi disk), prvo kontaktira CEPH klaster i to MONitor poslužitelje i od njih traži “CLuster Map” tablicu/konfiguraciju.
    2. CEPH cluster MONitor poslužitelj(i) mu šalju traženu tablicu/konfiguraciju
    3. Na osnovi tablice/konfiguracije koju je dobio, klijent pomoću CRUSH algoritma traži od OSD poslužitelja i OSD diskova podatke za čitanje ili traži pisanje. Do točnih OSD poslužitelja i točno određenih OSD diskova je pomoću CRUSH algoritma izračunao koji su te od njih i traži/šalje podatke
    4. S OSD-ova dobiva odgovor na traženi zahtjev (čitanje ili pisanje)

    Klijent 2 piše ili čita na ili sa CEPH RBD

    Ponavlja se proces kao i za prvog klijenta

     

    Za sada toliko

     

     

     

     

    Ako vas zanima kako instalirati i konfigurirati CEPH, pogledajte WIKI stranicu na kojoj je opisana procedura u kojoj je CEPH integriran s ProxmoxVE platformom za virtualizaciju.

     

     

     

     

    Autor:

    Hrvoje Horvat