Sissejuhatus Hadoopi komponentidesse

Hadoopi komponendid on peamiselt HDFS, Map Reduce, Yarn. Täna elame digitaalajastu ajastul, kus andmete tootmine on väga kõrge, umbes päevas toodetakse 2, 5 kvintiljonit andmeid. Ehkki ketaste salvestusmaht suureneb, pole selle andmemahu korral otsimiskiirus suurenenud. Selle ületamiseks peame andmeid lugema paralleelselt. Selle saavutamiseks Hadoopis on meil HDFS (Hadoopi hajutatud failisüsteem), kus andmekogumeid hoitakse HDFS-is plokkidena (üksikasju leiate HDFS-i jaotisest), et andmeid paralleelselt lugeda ja saavutada suurem töötlemiskiirus. Andmete töötlemine toimub sisuka teabe hankimiseks või prognoosimiseks või trendide või mustrite saamiseks. MapReduce'i protsessi kasutatakse soovitud teabe saamiseks. Kaardid ja vähendused on andmete töötlemise kaks erinevat faasi.

Hadoopi põhikomponendid

Allpool kirjeldatakse Hadoopi põhikomponente:

1. Hadoopi hajutatud failisüsteem (HDFS)

HDFS on suurandmete salvestuskiht, see on paljude masinate klaster, salvestatud andmeid saab töötlemiseks kasutada Hadoopi abil. Kui andmed on HDFS-i sisestatud, saame seda igal ajal töödelda, kuni andmete töötlemise aeg on HDFS-is, kuni failid käsitsi kustutame. HDFS salvestab andmed plokina, ploki minimaalne suurus on Hadoopi 2.x korral 128 MB ja 1.x jaoks oli see 64 MB. HDFS kopeerib saadaolevate andmete plokke, kui andmeid hoitakse ühes masinas ja kui masin ebaõnnestub, andmeid ei kaota, kuid nende vältimiseks korratakse andmeid erinevates masinates. Vaikimisi on replikatsioonitegur 3 ja saame muuta rakenduses HDFS-site.xml või käsku Hadoop fs -strep -w 3 / dir, replitseerides, et meil on plokkide olemasolu erinevates masinates kõrge kättesaadavuse tagamiseks.
HDFS on ülem-alluv arhitektuur, see on NameNode kui master ja Data Node kui ori. NameNode on masin, kuhu salvestatakse kõigi DataNode'i salvestatud plokkide metaandmed.

2. Lõng

YARN võeti kasutusele versioonis Hadoop 2.x, enne seda oli Hadoopil ressursside haldamiseks JobTracker. Job Tracker oli peremees ja selle ori oli Task Tracker. Job Tracker oli see, kes hoolitses töökohtade kavandamise ja ressursside eraldamise eest. Ülesannete jälgija hoolitses varem kaardi ja ülesannete vähendamise eest ning olekut uuendati perioodiliselt tööülesannete jälgijaks. With on ressursijuhi tüüp, millel oli mastaapsuse piir ja ka ülesannete samaaegne täitmine oli piiratud. Neid probleeme käsitleti YARNis ja see hoolitses ressursside jaotamise ja klastris olevate töökohtade ajastamise eest. Kaardi täitmine Vähendage töö jaoks ressursse klastris, et saada töö jaoks eraldatud ressursse, millest YARN aitab. YARN määrab, millist tööd tehakse ja millist masinat see tehakse. Sellel on kogu teave klastris saadaolevate tuumade ja mälu kohta, see jälgib klastri mälukasutust. Ressursside jaotamise kohta otsuse tegemisel suhtleb ta NameNode'iga andmete osas, kus ta asub.

3. MapReduce

Hadoopi ökosüsteem on tasuv, skaleeritav ja paindlik tööviis selliste suurte andmestikega. Hadoop on raamistik, mis kasutab konkreetset programmeerimismudelit nimega MapReduce, et jagada arvutamisülesanded plokkideks, mida saab Hadoopi hajutatud failisüsteemi (HDFS) abil jaotada kaubamasinate klastri ümber.

MapReduce on kaks erinevat ülesannet - Map ja Reduce, Map eelneb redutseerimise faasile. Nagu nimigi ütleb, kaardistab faas andmed võtme-väärtuste paaridesse, nagu me kõik teame, kasutab Hadoop töötlemiseks võtmeväärtusi. Redutseeriv etapp on etapp, kus meil on tegelik rakendatav loogika. Lisaks nendele kahele faasile rakendab see ka segamis- ja sortimisfaasi.

1. Kaardistaja

Mapper on klass, kus sisendfail teisendatakse edasiseks töötlemiseks võtmete ja väärtuste paariks. Andmete lugemisel loetakse seda võtmeväärtustes ainult siis, kui võti on natuke nihkes ja väärtus on kogu kirje.

Näiteks on meil fail Diary.txt, kuna meil on kirjutatud kaks rida, st kaks kirjet.

See on suurepärane päev, mida peaksime siin nautima, n-ö n-ö nihke väärtus t-le 0 ja w-le on 33 (tähemärgiks loetakse ka tühikuid), seega loeb kaardistaja andmeid võtme-väärtuste paarina, as (võti, väärtus), (0, see on suurepärane päev), (33, peaksime nautima)

2. reduktor

Reduktor on klass, mis võtab klahvid ja väärtused vastu kaardistaja faasi väljundis. Kaardistaja genereeritud võtmed ja väärtused võetakse redutseerija sisendina kasutusele edasiseks töötlemiseks. Reducer võtab vastu andmeid mitmelt kaardistajalt. Reduktor koondab need vaheandmed vähendatud arvule võtmetele ja väärtustele, mis on lõppväljund, näeme seda näites.

3. Juht

Peale kaardistaja ja reduktoriklassi vajame veel ühte klassi, mis on juhi klass. See kood on MapReduce jaoks vajalik, kuna see on sild raamistiku ja rakendatud loogika vahel. See täpsustab konfiguratsiooni, sisendandmete tee, väljundi salvestustee ja mis kõige tähtsam, millised kaardistaja ja reduktori klassid tuleb rakendada, ning paljud teised sellesse klassi konfigureeritavad seadistused. nt draiveriklassis saame määrata väljundfaili eraldaja, nagu on näidatud allpool toodud näites draiveriklassis.

Näide

Mõelge, et meil on reisibüroo andmestik, nüüd peame andmete põhjal arvutama, kui palju inimesi valib reisi konkreetsesse sihtkohta. Selle saavutamiseks peame võtmeks võtma sihtkoha ja loenduse jaoks võtame väärtuseks 1. Niisiis, kaardistaja faasis kaardistame sihtkoha väärtuseks 1. Nüüd kaardistaja järel sorteerimis- ja sortimisfaasis, see kaardistab kõik väärtused kindla võtme jaoks. Nt kui meil on sihtpunkt MAA, siis oleme kaardistanud 1 ja ka meil on 2 juhtumit pärast segamist ja sortimist, siis saame MAA, (1, 1) kus (1, 1) on väärtus. Nüüd, reduktori faasis, on reduktoris juba rakendatud loogika väärtuste lisamiseks, et saada sihtkohta broneeritud pileti koguarv. See on MapReduce'i voog.

Allpool on ülaltoodud näite jaoks rakendatud programmi ekraanipilt.

1. Juhi klass

2. Kaardistaja klass

3. reduktoriklass

Hadoopi käivitamine

Hadoopi käivitamiseks peame kõigepealt üles ehitama jari ja siis saame selle käivitada, kasutades allpool käsku Hadoopi jar eample.jar /input.txt /output.txt

Järeldus

Siin oleme arutanud Hadoopi põhikomponentide nagu HDFS, Map Reduce ja YARN üle. See on hajutatud klastri arvutusraamistik, mis aitab andmeid salvestada ja töödelda ning hõivatud andmetele vajalikku analüüsi teha. Hadoop on andmete osas paindlik, usaldusväärne, kuna andmeid korratakse ja skaleeritakse, st saame klastrisse lisada rohkem masinaid andmete salvestamiseks ja töötlemiseks.

Soovitatavad artiklid

See on olnud Hadoopi komponentide juhend. Siin arutasime näidetega Hadoopi põhikomponente. Lisateavet leiate ka meie muudest soovitatud artiklitest -

  1. Sissejuhatus JDBC arhitektuuri
  2. Mis on Hadoopi klaster?
  3. Mis on MapReduce Hadoopis?
  4. Mis on suurandmed ja Hadoop
  5. Hadoop fs käsud

Kategooria: