Sissejuhatus Hadoopi ökosüsteemi

Apache Hadoop on avatud lähtekoodiga süsteem, mis võimaldab palju teavet usaldusväärselt salvestada ja töödelda paljude kaubaarvutite kaudu. Hadoop on esmakordselt kirjutatud paberlehes ja avaldatud 2013. aasta oktoobris kui Google'i failisüsteem. Sel ajal Yahoo-s töötanud Doug Cutting tutvustas nime Hadoop ökosüsteemina, tuginedes oma poja mänguasja elevandi nimele. Kui arvestada Apache Hadoopi põhituumaga, siis esiteks võib kaaluda salvestusosa, mida tuntakse Hadoopi hajutatud failisüsteemi (HDFS) nime all, ja teiseks töötlevat osa, mida tuntakse kui Map Reduce Programming moodulit. Hadoop lõhestab tegelikult ühe tohutu faili ja salvestab need klastris mitmesse sõlme.

Hadoopi ökosüsteemi mõiste

Apache Hadoopi raamistik hoiab peamiselt allpool olevaid mooduleid:

  1. Hadoop Common: sisaldab kõiki Hadoopi mooduli kasutamiseks vajalikke teeke ja utiliite.
  2. Hadoopi hajutatud failisüsteem (HDFS): see on üks hajutatud failisüsteemidest, mis aitab salvestada tohutuid andmeid mitmetes või tarbekaupades. Pakkuda ribalaiuse korral ka suurt kasulikkust; see tagab tavaliselt klastri agregaadi tüübis väga suure ribalaiuse.
  3. Hadoopi lõng: see tutvustati 2012. aastal. Seda tutvustatakse peamiselt kogu süsteemi ressursside haldamiseks, isegi klastris. Ressursside võimekuse alusel levitab või ajakava kasutaja taotlus vastavalt nõudele.
  4. Hadoop MapReduce: See aitab peamiselt suuremahulisi andmeid töödelda kaardi vähendamise programmeerimismetoodika kaudu.

Apache Hadoop aitab IT-kulude vähendamisel tohutute andmete nutika töötlemise ja salvestamise osas IT-kulusid vähendada. Kuna Apache Hadoop on avatud lähtekoodiga ja riistvara on väga levinud, aitab see meid alati IT-kulude nõuetekohase vähendamisega toime tulemisel.

Avatud lähtekoodiga tarkvara + kauba riistvara = IT kulude vähendamine

Näiteks kui kaalume 942787 faili ja kataloogi igapäevast vastuvõtmist, mis nõuavad 4077936 plokki, kokku 5020723 plokki. Nii et kui me konfigureerisime vähemalt 1, 46 PB mahtu, siis koormuse ületamise korral kasutab hajutatud failisüsteem 1, 09 PB, mis tähendab peaaegu 74, 85% kogu konfigureeritud mahust, arvestades 178 reaalajas sõlme ja 24 surnud sõlme.

Hadoopi ökosüsteem, mis on mõeldud peamiselt suurandmete salvestamiseks ja töötlemiseks, millel on tavaliselt järgmised võtmeomadused:

  • Maht

Maht tähistab tegelikult salvestatud ja loodud andmete suurust. Sõltub andmete suurusest, kui on kindlaks tehtud, kas andmekogum on suurandmed või mitte.

  • Mitmekesisus

Erinevus tähistab kasutatavate andmete olemust, struktuuri ja tüüpi.

  • Kiirus

Kiirus tähendab andmete arendamise kiirust, mis on salvestatud ja genereeritud konkreetses arendusprotsessivoolus.

  • Tõesus

Tõesus tähendab hõivatud andmete kvaliteeti ja aitab andmete analüüsil ka soovitud eesmärgini jõuda.

HDFS on mõeldud peamiselt väga suure hulga teabe (terabaidi või petabaiti) salvestamiseks klastri suurele hulgale masinatele. See säilitab alati mõnda ühist omadust, näiteks andmete usaldusväärsust, töötab riistvara abil, kasutades plokke faili või selle osa salvestamiseks, kasutades mudelit kirjuta, kui loed palju.

Järgmine HDFS järgib arhitektuuri koos nime sõlme ja andmesõlme kontseptsiooniga.

Nimesõlme (kapteni) vastutus:

- haldab failisüsteemi nimeruumi

- säilitab klastri konfiguratsiooni

- vastutab replikatsioonide haldamise eest

Andmesõlme (orjad) vastutus:

- Salvestage andmeid kohalikus failisüsteemis

- Teatage perioodiliselt nimesõlmele südamelööke kasutades

HDFS-i kirjutamisoperatsioon:

Hadoop järgib suure faili kirjutamiseks järgmisi samme:

  1. Looge fail ja värskendage FS-i pilti pärast ühe faili kirjutamise taotluse saamist mis tahes HDFS-i kliendilt.
  2. Hankige nimesõlmest teave ploki asukoha või andmesõlme kohta.
  3. Kirjutage pakett üksikute andmesõlmedega paralleelselt.
  4. Kinnitage pakettide kirjutamise lõpuleviimist või aktsepteerimist ja saatke teave Hadoopi kliendile tagasi.

HDFS-i ploki replikatsioonitoru:

  1. Klient hangib Namenoodist loendi Datanodes, mis majutab selle ploki koopiat
  2. Seejärel loputab klient andmeploki esimesse Datanode
  3. Esimene Datanode võtab vastu ploki, kirjutab selle ja edastab selle järgmisele torujuhtme andmesõlmele
  4. Kui kõik koopiad on kirjutatud, liigub klient faili järgmisesse plokki

HDFS-i rikketolerants:

Üks andmesõlm on järsku maas olnud. Sel juhul on HDFS võimeline seda stsenaariumi automaatselt haldama. Esiteks võetakse kõigi nimesõlmedelt igast andmesõlmest alati üks südamelöök, kui see kaotas ühelt andmesõlmelt ühe südamelöögi, pidades sama andmesõlme allapoole, kohe tegutsema, et kopeerida viivitamatult kõik allesjäänud sõlmedes olevad plokid, et rahuldada replikatsioon faktor.

Kui nimesõlm tuvastab klastris ühe uue andmesõlme, tasakaalustab see kohe kõiki plokke, sealhulgas lisatud andmesõlme.

Nüüd on mõnevõrra Nimesõlme kaotus või nurjunud, samuti varundsõlm, millel on nimesõlme üks FS-pilt, taasesitab kohe kõik FS-i toimingud ja nimesõlme vastavalt vajadusele üles. Kuid sel juhul on vajalik käsitsi sekkumine ja kogu Hadoopi ökosüsteemi raamistik on uue nime seadistamiseks uuesti paar korda maas. Niisiis võib nimesõlm olla ühepunktiline tõrge, et selle stsenaariumi vältimiseks HDFS-i liit tuua sisse mitu nimesõlme moodustatud klastrit ja ZooKeeper suudab vajaduse korral hallata ühe alternatiivse nimesõlme.

Hadoopi ökosüsteemi näited

Hadoopi täielikku ökosüsteemi näidet saab alltoodud joonisel õigesti selgitada:

Andmed võivad pärineda mis tahes allikast, näiteks andmelaost, hallatud dokumentide hoidlast, failijagamistest, tavalisest andmebaasist RDMS või pilve- või välistest allikatest. Kõik need andmed jõudsid HDFS-i struktuuri või mittestruktureerimise või poolstruktureerimise teel. HDFS salvestab kõik need andmed hajutatud viisil, see tähendab hajutatud kaubasüsteemis hoidmist väga nutikalt.

Järeldus

Hadoopi ökosüsteem, mis on mõeldud peamiselt tohutute andmete salvestamiseks ja töötlemiseks, mis oleks pidanud sisaldama mõlemat kahest tegurist ruumala, kiiruse ja mitmekesisuse vahel. See salvestab andmeid hajutatud töötlussüsteemis, mis töötab toorme riistvaraga. Arvestades kogu Hadoopi ökosüsteemi protsessi, jaotab HDFS andmeplokid ja Map Reduce pakub programmeerimisraamistikku andmete lugemiseks HDFS-i salvestatud failist.

Soovitatavad artiklid:

See on olnud Hadoopi ökosüsteemi juhend. Siin oleme arutanud Hadoopi ökosüsteemi põhikontseptsiooni, selle arhitektuuri, HDFS-i toiminguid, näiteid, HDFS-tõrketaluvust jne. Lisateabe saamiseks võite vaadata ka järgmisi artikleid -

  1. Hadoopi kasutusvõimalused reaalses maailmas
  2. Hadoop vs Splunk
  3. Karjäär Hadoopis
  4. Hadoop vs SQL jõudlus

Kategooria: