Sissejuhatus HDFS-i arhitektuuri

HDFS tähistab Hadoopi hajutatud failisüsteemi, mis ise ütleb, et failid jagunevad plokkideks ja salvestatakse mitmesse masinasse.

HDFS-i omadused

HDFS-i omadused on järgmised:

1. Kättesaadavus

HDFS-is korratakse andmeid regulaarselt andmesõlmede vahel, luues teises andmesõlmes plokkide koopia. Nii et riistvara rikke või tõrke korral saab kasutaja hankida oma andmed teisest andmesõlmest, kus andmeid on korratud.

2. Skaleeritavus

HDFS-is salvestatakse andmed mitmele andmeüksusele plokkide kujul. HDFS võimaldab kasutajatel vajaduse korral suurendada plokkide suurust. HDFS-is kasutatakse kahte tüüpi skaleeritavusmehhanisme - horisontaalset ja vertikaalset skaleeritavust.

3. Kopeerimine

See on HDFS-i ainulaadsed omadused, mis võimaldavad kasutajal riistvara rikke korral hõlpsalt juurdepääsu oma andmetele.

HDFS arhitektuur

HDFS järgib ülem-alluv arhitektuuri, millel on järgmised komponendid:

1. NameNode:

NameNode on tuntud ka kui peasõlm, kuna see haldab kõiki DataNodes sisalduvaid plokke.

NameNode täidab järgmisi ülesandeid:

  • Hallake kõiki DataNode'i plokke
  • Annab kasutajale juurdepääsu failidele
  • Hoiab kõiki DataNode'is olevaid plokkide kirjeid
  • NameNode salvestab kogu teabe failide kohta, näiteks kui faili nimi on ümbernimetatud või kui sisu on muudetud või kustutatud, salvestab NameNode selle muudatuse koheselt EditLogsis.
  • Andmede sõlmedest võetakse kõigi plokkide kirjed tagamaks, et DataNode'is oleks kõik plokid elus.
  • Vea korral ja kui juhtub mõni riistvaratõrke, valib see koheselt uue DataNode, et luua replikatsioon ja hallata kõigi DataNode-idega ühendust

NameNode-i failitüübid

NameNode sisaldab kahte tüüpi faile FsImage ja EditLogs

i. FsImage: Seda nimetatakse ka failipildiks, kuna see sisaldab kogu failisüsteemi teavet koos nimeruumidega. See sisaldab ka kõiki katalooge ja failisüsteemi faile seeriaviisiliselt.

ii. EditLogs: failisüsteemi failides tehtud praegused muudatused salvestatakse EditLogs.

2. Teisene nimiNood

Sekundaarset NameNode nimetatakse ka kontrollpunkti sõlmeks, kuna see täidab regulaarseid kontrollpunkte. See toimib esmase NameNode abistajana.

Sekundaarne NameNode täidab järgmisi ülesandeid

  • Sekundaarne NameNode ühendab failist NameNode FsImage ja EditLogs.
  • See loeb kogu failisüsteemi teabe NameNode salvestusmälust ja kirjutab selle teabe failisüsteemi kõvakettale.
  • See laadib regulaarselt intervallidest NameNode alla failid FsImage ja EditLogs ning loeb tehtud muutmisteabe EditLogsi failide kohta ja märgib üles muudatused failis FsImage. See protsess loob uue FsImage, mis saadetakse seejärel tagasi NameNode. Kui NameNode käivitub, kasutab ta neid FsImage.

3. DataNode

DataNode tuntakse ka orjasõlmena, kuna see haldab iga sõlme, mis sisaldab andmeid orjamasinas. DataNode salvestab andmed ext3 või ext4 failivormingus.

Andmesõlm täidab järgmisi ülesandeid:

  • Kõik andmed salvestatakse DataNodesisse
  • See teostab kõigi failide toiminguid vastavalt kasutaja soovile, näiteks loeb failisisu, kirjutab failidesse uusi andmeid,
  • See järgib ka kõiki juhiseid, mille NameNode annab, näiteks faili ümbernimetamine, mõne DataNode'is asuva ploki kustutamine, plokkide loomine jne.

4. Kontrollpunkti sõlm:

Kontrollpunkti sõlm on sõlm, mis lõi regulaarsete ajavahemike järel failide kontrollpunkti. Kontrollpunkti sõlm HDFS-is, laadige saidist NameNode alla failid FsImage ja EditLogs ning ühendage need uue pildi loomiseks ja saatke see uus nimi nimeleNode. Viimane kontrollpunkt salvestatakse kataloogis, mille struktuur on sama, mis namenoodi kataloogil. Seetõttu on kontrollpunktiga pilt vajaduse korral alati saadaval.

5. Varusõlm:

Varusõlme funktsioon sarnaneb kontrollpunkti sõlmega kontrollpunkti ülesande täitmiseks. Hadoopis salvestab varundussõlm failisüsteemi nimeruumi uusima ja ajakohastatud koopia. Kontrollpunkti loomiseks varukoopiasõlmes pole vaja aktiivsest NameNode-ist faile FsImage ja editsLogs alla laadida, kuna see on sünkroonitud aktiivse NameNode olekuga. Varundamise sõlme funktsioon on täpsem, kuna salvestage nimeruum kohalikku FsImage-faili ja lähtestage editLogs.

6. Plokid:

Kõik kasutajate andmed salvestatakse HDFS-i failidesse, mis seejärel jagatakse väikesteks segmentideks. Need segmendid salvestatakse DataNodes. DataNodes leiduvaid segmente nimetatakse plokkideks. Nende plokkide vaikesuurus on 128 MB. Ploki suurust saab vastavalt kasutajate nõudmistele muuta HDFS-i seadistamisega.

Kui andmete suurus on väiksem kui ploki suurus, võrdub ploki suurus andmete suurusega. Näiteks kui andmete maht on 135 MB, loob see 2 blokki. Üks vaikimisi on 128 MB ja teine ​​ainult 7 MB, mitte 128 MB. Seetõttu säästetakse palju ruumi ja ketta kellaaega.

Replikatsioonide haldus HDFS-i arhitektuuris:

HDFS on tõrketaluv. Veatolerants on süsteemi jõud tõrgete korral ja see, kuidas see reageerib vigadele ja keerulistele tingimustele. Veatolerantsus põhineb replikate loomise protsessil. Kasutaja andmete koopiad salvestatakse DHFS-klastri masinatesse. Seega, kui süsteemis on rikkeid või tõrkeid, pääseb nende andmete koopiale juurde HDFS-klastri teistest masinatest. Igal HDFS-i arhitektuuri plokil on 3 koopiat, mida salvestatakse erinevates DataNodes. NameNode säilitab DataNodeses saadaolevaid koopiaid. NameNode lisab või kustutab koopiad vastavalt alamriskiga või üle replitseeritud plokkide kriteeriumidele.

Kirjutage operatsioon

Failide HDFS-i kirjutamiseks suhtleb klient metaandmete saamiseks nimegaName. Nimesood vastab mitme plokiga, nende asukoha, koopiatega jne. Klient jagab failid nimekooditeabe põhjal mitmeks plokiks. Seejärel hakkab ta neid saatma DataNode'i. Esiteks saadab klient ploki A DataNode 1-le koos muu teabega DataNode kohta. Kui DataNode 1 võtab vastu kliendi ploki A, kopeerib DataNode 1 sama ploki samasse rackisse DataNode 2. Kuna mõlemad DataNodes asuvad samas raketis, toimub ploki teisaldamine racki lüliti kaudu. DataNode 2 kopeerib nüüd sama ploki DataNode 3-le. Kuna mõlemad DataNodes asuvad erinevates rakettides, toimub ploki teisaldamine väljundlüliti kaudu. Kui DataNode saab kliendi plokid, saadab ta kinnituse NameMode'ile. Faili igas plokis korratakse sama protsessi.

Lugege operatsiooni

Loetud toimingu korral suhtleb esimene klient metaandmete saamiseks nimegaName. Klient väljub NameNode'ist koos faili nime ja asukohaga. Nimesood vastab ploki numbri, asukoha, koopiate ja muu teabega. Pärast seda suhtleb klient DataNodes'iga. NameNode'ist saadud teabe põhjal alustab klient andmete lugemist paralleelselt DataNodes-iga. Kui klient või rakendus võtab faili kogu ploki vastu, ühendab ta need plokid algsesse failivormi.

Järeldus - HDFS arhitektuur

NameNode ja DataNode abiga salvestab see usaldusväärselt väga suuri faile masinatesse suures klastris. Vea taluvuse tõttu on abi andmete või tarkvara või riistvara rikke ajal juurdepääsu saamiseks. Nii töötab HDFS-i arhitektuur.

Soovitatavad artiklid

See on olnud HDFS-i arhitektuuri juhend. Siin arutasime põhimõisteid eri tüüpi arhitektuuriga, HDFS-i arhitektuuri funktsioonide ja replikatsioonide haldamisega. Lisateavet leiate ka meie muudest soovitatud artiklitest -

  1. Mis on andmete modelleerimine?
  2. Mis on andmete visualiseerimine
  3. Mis on andmeladu?
  4. Mis on SQL arendaja?

Kategooria: