Mis on Hadoop?

Enne Hadoopi eeliste mõistmist mõelge kõigepealt Hadoopi eelistest. Hadoop on suur andmetöötluse paradigma, mis pakub usaldusväärset, skaleeritavat kohta andmete säilitamiseks ja töötlemiseks. Hadoopi lõi Doug Cutting ja teda peetakse Hadoopi isaks. Hadoop oli tema poja mänguasja elevandi nimi. Hadoopi juured olid Nutch Search Engine Projectis. Hadoop on töötlemisraamistik, mis tõi tohutuid muudatusi andmete töötlemise viisi ja andmete säilitamise viisi. Võrreldes selliste traditsiooniliste töötlemisriistadega nagu RDBMS, tõestas Hadoop, et suudame tõhusalt võidelda selliste suurandmete väljakutsetega nagu,

Andme mitmekesisus: Hadoop saab salvestada ja töödelda nii struktureeritud kui ka poolstruktureeritud ja struktureerimata vorminguid andmeid.

Andmete maht : Hadoop on loodud spetsiaalselt tohutu hulga andmete töötlemiseks petabaitide vahemikus.

Andmete kiirus : Hadoop suudab töödelda suure kiirusega andmete petabaite suuremate kiirustega võrreldes muude töötlemisriistadega nagu RDBMS, st Hadoopi töötlemisaeg on väga lühem.

Hadoopi silmapaistvad omadused

  • Hadoop on oma olemuselt avatud lähtekoodiga.
  • See töötab masinate klastris. Klastri suurus sõltub nõuetest.
  • Seda saab kasutada tavalisel kauba riistvaral.

Hadoopi eelised

Selles jaotises käsitletakse Hadoopi eeliseid. Vaadakem nüüd neid ükshaaval:

1. Avatud lähtekoodiga

Hadoop on oma olemuselt avatud lähtekoodiga, st selle lähtekood on vabalt saadaval. Lähtekoodi saame muuta vastavalt meie ärinõuetele. Saadaval on ka Hadoopi patenteeritud versioonid, nagu Cloudera ja Hortoni teosed.

2. Skaleeritav

Hadoop töötab Masinate klastri peal. Hadoop on väga skaleeritav. Saame klastri suurust suurendada, lisades uutele sõlmedele vastavalt nõudele ilma seisakuid. Sellist klastrisse uute masinate lisamise viisi nimetatakse horisontaalseks skaleerimiseks, samas kui komponentide suurendamist, näiteks kõvaketta ja RAM-i kahekordistamist, nimetatakse vertikaalseks skaleerimiseks.

3. Veatolerantne

Veatolerants on Hadoopi silmapaistev omadus. Vaikimisi on kõigi HDFS-i plokkide kordustegur 3. Iga andmeploki jaoks loob HDFS veel kaks koopiat ja salvestab need klastrisse muusse kohta. Kui mõni plokk kaob masinsõrke tõttu, on meil endiselt samast plokist veel kaks eksemplari ja neid kasutatakse. Sel viisil saavutatakse Hadoopis rikketolerants.

4. Skeem iseseisev

Hadoop saab töötada erinevat tüüpi andmetega. See on piisavalt paindlik, et salvestada erinevaid vorminguid andmeid ning töötab nii skeemi (struktureeritud) kui ka skeemivabade andmetega (struktureerimata) nii andmetega.

5. Suur läbilaskevõime ja madal latentsusaeg

Läbilaskevõime tähendab tehtud tööd ühe ajaühiku kohta ja madal latentsus tähendab andmete töötlemist viivituseta või väiksema viivitusega. Kuna Hadoopi juhib hajutatud salvestuse ja paralleelse töötlemise põhimõte, toimub töötlemine samaaegselt igas andmeplokis ja üksteisest sõltumatult. Samuti liigutatakse andmete teisaldamise asemel kood klastri andmetele. Need kaks aitavad kaasa suurele läbilaskevõimele ja madalale latentsusele.

6. Andmete lokaalsus

Hadoop töötab põhimõttel „Teisalda koodi, mitte andmeid”. Hadoopis jääb Data paikseks ja andmete töötlemiseks teisaldatakse kood andmetesse ülesannete kujul, seda nimetatakse andmete asukohaks. Kuna tegemist on andmetega petabaitide vahemikus, muutub andmete võrgus teisaldamine keerukaks ja kulukaks, tagades andmete paiknemise, et andmete liikumine klastris oleks minimaalne.

7. Etendus

Legacy süsteemides nagu RDBMS töödeldakse andmeid järjest, kuid Hadoopis algab töötlemine kõigis plokkides korraga, pakkudes paralleelset töötlemist. Paralleelsete töötlemistehnikate tõttu on Hadoopi jõudlus palju kõrgem kui Legacy süsteemidel nagu RDBMS. 2008. aastal alistas Hadoop isegi sel ajal kohal olnud kiireima superarvuti.

8. Jagage mitte midagi arhitektuuri

Hadoopi klastri kõik sõlmed on üksteisest sõltumatud. Nad ei jaga ressursse ega salvestusruumi, seda arhitektuuri nimetatakse ühiskasutusse mittekuuluvaks arhitektuuriks (SN). Kui klastri sõlm ebaõnnestub, ei vähenda see kogu klastrit, kuna iga sõlm tegutseb iseseisvalt, välistades seega ühe tõrkepunkti.

9. Mitme keele tugi

Ehkki Hadoop töötati enamasti välja Java, laiendab see teiste keelte, näiteks Python, Ruby, Perl ja Groovy tuge.

10. Tasuv

Hadoop on oma olemuselt väga ökonoomne. Saame ehitada Hadoopi klastri, kasutades tavalist riistvara, vähendades sellega riistvara kulusid. Pilveajastul on Hadoopi andmehalduskulud, st nii riist- kui tarkvara ning muud kulud traditsiooniliste ETL-süsteemidega võrreldes väga väikesed.

11. Abstraktsioon

Hadoop pakub abstraktsiooni erinevatel tasanditel. See lihtsustab arendajate tööd. Suur fail jagatakse sama suurusega plokkideks ja salvestatakse klastri eri kohtadesse. Kaardi vähendamise ülesande loomisel peame muretsema plokkide asukoha pärast. Esitame sisendina tervikfaili ja Hadoopi raamistik hoolitseb erinevate andmeplokkide töötlemise eest, mis asuvad erinevates kohtades. Taru on osa Hadoopi ökosüsteemist ja see on Hadoopi peal olev abstraktsioon. Kuna Map Reduce'i ülesanded on kirjutatud Java keeles, ei suutnud SQL-i arendajad kogu maailmas Map Reduce'i ära kasutada. Niisiis, Hive tutvustatakse selle probleemi lahendamiseks. Saame Hive-i kirjutada SQL-vormingus päringuid, mis omakorda käivitab Mapi töökohtade vähendamise. Niisiis, tänu Hive'ile on SQL-i kogukonnal võimalik töötada ka funktsiooni Map Reduce Tasks töös.

12. Ühilduvus

Hadoopis on HDFS salvestuskiht ja Map Reduce töötlemismootor. Kuid ei ole ranget reeglit, et Map Reduce peaks olema vaikimisi töötlemise mootor. Uued töötlemisraamistikud, näiteks Apache Spark ja Apache Flink, kasutavad HDFS-i salvestussüsteemina. Isegi tarus saame vastavalt oma nõudele muuta oma täidesaatmismootori Apache Teziks või Apache Sparkiks. Apache HBase, mis on NoSQL veergude andmebaas, kasutab ladustamise kihi jaoks HDFS-i.

13. Erinevate failisüsteemide tugi

Hadoop on oma olemuselt väga paindlik. See võib neelata mitmesuguseid andmevorminguid, näiteks pilte, videoid, faile jne. Samuti saab töödelda struktureeritud ja struktureerimata andmeid. Hadoop toetab erinevaid failisüsteeme nagu JSON, XML, Avro, Parquet jne.

Hadoopi töö

Allpool on toodud punktid, mis näitavad Hadoopi toimimist:

1. Hajutatud ladustamine ja paralleelne töötlemine

See on Hadoopi ökosüsteemi kõigi raamistike, sealhulgas Apache Sparki, juhtpõhimõte. Hadoopi ja Sparki töö mõistmiseks peaksime kõigepealt mõistma, mis on „hajutatud ladustamine ja paralleelne töötlemine”.

2. Hajutatud salvestusruum

Hadoop ei salvesta andmeid ühes masinas, selle asemel jagab need tohutud andmed võrdse suurusega plokkideks, mis vaikimisi on 256 MB, ja salvestab need plokid klastri eri sõlmedesse (töötajate sõlmed). See salvestab nende plokkide metaandmed peasõlme. Seda faili klastris hajutatud kohtadesse salvestamise viisi nimetatakse Hadoopi hajutatud failisüsteemiks - HDFS.

3. Paralleelne töötlemine

See on töötlemisparadigma, kus töötlemine toimub samaaegselt HDFS-is salvestatud andmeplokkides. Paralleelne töötlemine toimib põhimõttel “teisalda kood, mitte andmed”. Andmed jäävad HDFS-is statsionaarseks, kuid kood teisaldatakse andmete töötlemiseks. Lihtsamalt öeldes, kui meie fail jaotatakse 100 plokki, luuakse tööst 100 eksemplari ja need rändavad üle klastri asukohta, kus plokk asub, ja samaaegselt algab töötlemine 100 plokis (kaardifaas). Kõigi plokkide väljundandmed kogutakse ja vähendatakse lõppväljundini (Reduce Phase). Map Reduce'i peetakse „Hadoopi südameks”.

Järeldus-Hadoopi eelised

Selles andmeajastuses sillutas Hadoop tee teistsugusele lähenemisele suurte andmetega seotud väljakutsetele. Kui me ütleme, Hadoop, ei pea me silmas ainult Hadoopi, siis hõlmab see Hadoopi ökosüsteemi tööriistu nagu Apache Hive, mis pakub SQL-i sarnaste toimingutega Hadoopi, Apache Pigi, Apache HBase for Columnar salvestusandmebaasi, Apache Spark mälu töötlemiseks ja palju rohkem. Kuigi Hadoopil on oma puudused, on see väga kohanemisvõimeline ja areneb iga väljalaskega pidevalt.

Soovitatavad artiklid

See on Hadoopi eeliste juhend. Siin arutame, mis on Hadoop ja Hadoopi peamised eelised. Lisateavet leiate ka meie muudest seotud artiklitest -

  1. HADOOPi raamistik
  2. Mis on Hadoopi klaster?
  3. Mis on MapReduce Hadoopis?
  4. Hadoopi andmebaas
  5. Mis on Hadoop? | Rakendused ja funktsioonid

Kategooria: