Saate teada Hadoopi ja MapReduce'i 5 parimat erinevust

Erinevus Hadoopi ja MapReduce'i vahel

Hadoopi juured ulatuvad tagasi aastasse 2002, kui Dough Cutting töötas avatud lähtekoodiga projekti nimel, mille nimi oli Nutch (mida kasutati veebilehtede indekseerimiseks ja indekseeritud veebilehtede otsimiseks, sama asi, mida teeb Google). Ta seisis silmitsi mastaapsuse probleemidega nii ladustamise kui ka arvutamise osas. 2003. aastal avaldas google GFS (google failisüsteem) ja 2004. aastal lõi Nutch NDFS (Nutch hajutatud failisüsteem). Pärast seda, kui Google kuulutas MapReduce'i nende sorteerimisalgoritmide taga olevaks arvutuslikuks ajuks, suutis Dough käivitada Nutchi NDFS-il ja kasutas MapReduce'i aastal 2005 ning 2006. aastal sündis Hadoop.

Hadoop ja MapReduce! Hadoop on avatud lähtekoodiga projektide ökosüsteem, näiteks Hadoop Common, Hadoop hajutatud failisüsteem (HDFS), Hadoop YARN, Hadoop MapReduce. Hadoop kui selline on avatud lähtekoodiga raamistik tohutute andmekogumite hoidmiseks ja töötlemiseks. Salvestamist kannab HDFS ja töötlemise eest hoolitseb MapReduce. MapReduce on teiselt poolt programmeerimismudel, mis võimaldab teil töödelda Hadoop-is talletatud tohutuid andmeid. Kui mõistame Hadoopi ja MapReduce'i selles postituses üksikasjalikult.

Hadoopi ja MapReduce'i (infograafika) võrdlus ühest otsast teise

Allpool on Hadoopi ja MapReduce'i 5 parimat võrdlust

Peamised erinevused Hadoopi ja MapReduce'i vahel

Järgnevalt on toodud erinevused Hadoopi ja MapReduce'i vahel

Kui tahame eristada Hadoopi ja MapReduce'i tavainimesest, siis võime öelda, et Hadoop on nagu auto, kus teil on kõik vahemaa läbimiseks vajalik, kuid MapReduce on nagu auto mootor, nii et ilma autota saab mootor ” t olemas, kuid auto välispind võib muutuda (muud DFS (hajutatud failisüsteemid)).
Hadoopi põhiidee on see, et andmed peavad olema usaldusväärsed ja skaleeritavad, usaldusväärsed, kuna katastroofi või võrgutõrke korral peavad andmed olema kogu aeg kättesaadavad ning see saavutatakse Hadoopi raamistikus, kasutades nimesõlmi ja andmesõlmi.
Mõned andmeide ja nimesõlmede põhiideed

Andmesõlme ja nimesõlme arhitektuuri põhiidee on ülem- / alluv-arhitektuur, kus üks salvestab andmete asukoha (nimesõlm) ja teine andmed ise (andmesõlm). Andmed jagatakse tükkideks 64 MB ja salvestatakse andmeplokkidesse ning nende registrit peetakse nimesõlmes. Usaldusväärsuse tagamiseks korratakse andmeid vaikimisi kolm korda. Mastaapsusest rääkides saab riistvara liikvel olles suurendada ja see aitab suurendada salvestusruumi ja muuta süsteemi skaleeritavaks.
Nüüd MapReduce'i saabudes on kolm etappi
1. Kaardi faas
2. Segamise faas
3. Vähendage faasi

Võtame näite, et seda paremini mõista. Programmeerimisraamistikuks oleval MapReduce'il on ka teremaailma programm, kuid MapReduce'is on see tuntud kui sõnade arvutamise programm.

Programm Word Count annab meile lõigus / artiklis või mis tahes andmeallikas sõna võtmeväärtuse paarid ja selle sageduse. Selle hõlpsaks mõistmiseks võtame näiteandmetena allpool.

Nagu näeme andmekogu, on meil kolm sõna buss, auto ja rong. Veerus nimega Sisend on andmed nagu meil andmestikus, veerus Väljund on andmed vaheetapis, kus toimub segamine.

Võtame jagaja sõnade jagamiseks komaga (, ). Jagaja võib olla koma või tühik või uus rida jne.

Sisend

Andmekogum

CaR, CAR, auto, buss, rong, buss, rong, buss, rong, buss, buS, auto, buss, auto, rong, auto, buss, auto

Väljund

Teisendage teiseks andmekogumiks

(Võti, väärtus)

(Buss, 1), (Auto, 1), (Buss, 1), (auto, 1), (rong, 1),

(auto, 1), (buss, 1), (auto, 1), (rong, 1), (buss, 1),

(Rong, 1), (BUS, 1), (buS, 1), (caR, 1), (CAR, 1),

(auto, 1), (buss, 1), (rong, 1)

Ja ülaltoodud vaheetapi väljund antakse reduktorile ja allpool on programmi lõppväljund.

Sisend

(kaardifunktsiooni väljund)

Tuplite komplekt

(Buss, 1), (Auto, 1), (Buss, 1), (auto, 1), (rong, 1),

(auto, 1), (buss, 1), (auto, 1), (rong, 1), (buss, 1),

(Rong, 1), (BUS, 1), (buS, 1), (caR, 1), (CAR, 1),

(auto, 1), (buss, 1), (rong, 1)

Väljund

Teisendab väiksemaks komplektiks

(BUS, 7),

(CAR, 7),

(Rong, 4)

Üks Hadoopi peamisi erinevusi teiste suurte andmetöötlusraamistikega on see, et Hadoop saadab koodi (MapReduce koodi) klastritesse, kus andmeid hoitakse, selle asemel, et saata andmeid koodiga, kuna andmekogumid asuvad TB-des või mõnikord PB-des see on tüütu ülesanne.

Hadoop vs MapReduce võrdlustabel

Võrdluse alus	Hadoop	MapReduce
Tähendus	Nimi “Hadoop” oli Doug Cuttingu poja mänguasja elevandi nimi. Ta nimetas seda projekti Hadoopiks, kuna seda oli lihtne hääldada.	Nimi “MapReduce” tekkis vastavalt funktsioonile, mis kaardistab ja vähendab võtmeväärtuste paari.
Kontseptsioon	Apache Hadoop on ökosüsteem, mis pakub keskkonda, mis on usaldusväärne, skaleeritav ja valmis hajutatud andmetöötluseks.	MapReduce on selle projekti alamoodul, mis on programmeerimismudel ja mida kasutatakse HDFS-is (Hadoopi hajutatud failisüsteem) asuvate tohutute andmekogumite töötlemiseks.
Eeltingimused	Hadoop töötab tööriistadel HDFS (Hadoopi hajutatud failisüsteem)	MapReduce saab töötada HDFS / GFS / NDFS või mõnes muus hajutatud failisüsteemis, näiteks MapR-FS
Keel	Hadoop on kõigi moodulite kogum ja võib seetõttu sisaldada ka muid programmeerimis- / skriptikeeli	MapReduce on kirjutatud Java programmeerimiskeeles
Raamistik	Hadoopil pole mitte ainult salvestusraamistikku, mis andmeid salvestab, vaid ka nimesõlme ja andmesõlme loomiseks on tal ka teisi raamistikke, mis hõlmavad ise MapReduce'i.	MapReduce on programmeerimisraamistik, mis kasutab andmete sortimiseks / töötlemiseks võtit, väärtuste kaardistusi

Allpool olev joonis aitab MapReduce'i eristada Hadoopist.

MapReduce raamistik

Nagu ülaltoodud pildilt näeme, on MapReduce hajutatud töötlemisraamistik, samas kui Hadoop on kõigi raamistike kogum.

Järeldus - Hadoop vs MapReduce

Hadoop oli avatud lähtekoodiga populaarsus, kuna seda oli tasuta kasutada ja programmeerijad said koodi vastavalt oma vajadustele muuta. Hadoopi ökosüsteemi arendati viimastel aastatel pidevalt, et muuta ökosüsteem võimalikult veatuks.

Maailma pidevalt muutuvate vajadustega muutub tehnoloogia kiiresti ja muutustega on raske silma peal hoida. Kuu jooksul genereeritavad andmed kahekordistuvad / kolmekordistuvad, kui seda artiklit lugesite ja vajadus andmekogumite kiirema töötlemise järele viis paljude teiste programmeerimisraamistike juurde, nagu MapReduce 2, Spark jne.

Soovitatavad artiklid

See on olnud juhend Hadoop vs MapReduce, nende tähendus, võrdlus pea vahel, peamised erinevused, võrdlustabel ja järeldus. Lisateabe saamiseks võite vaadata ka järgmisi artikleid -