Mis on MapReduce Hadoopis? - Kuidas see töötab - Oskuste ja karjääri kasv

Lang L: none (table-of-contents):

Anonim

Mis on MapReduce Hadoopis

MapReduce on Hadoopi raamistik, mida kasutatakse suurte riistvaraklastrite tohutu hulga andmete paralleelseks töötlemiseks usaldusväärsel viisil. Hadoop on avatud lähtekoodiga projekt, mida pakub tarkvara sihtasutus Apache. Hadoop kasutas kiiret ja usaldusväärset analüüsi nii struktureeritud kui ka struktureerimata andmete jaoks. Hadoop saab hakkama väga suurte andmekogumitega ning need võivad olla nii struktureeritud kui ka struktureerimata andmed, mis on tegelikult seotud suurte andmetega. Hadoopi raamistik, mis võimaldab rakendusel salvestada andmeid hajutatud kujul ja töödelda suuri andmekogumeid arvutiklastrites, kasutades lihtsat programmeerimismudelit, see on Map Reduce, ehk teisisõnu võime nimetada Map Reduce töötlemiseks kasutatava programmeerimismudelina tohutu hulk andmeid klastrite arvu kohta. Hadoop saab laiendada üksikutest serveritest tuhandete arvutisõlmede või masinateni, mida igaüks kasutab arvutamiseks ja salvestamiseks.

Apache Hadoopi projekt sisaldab mitmeid allprojekte järgmiselt:

  • Hadoop Common: Hadoop Common, millel on utiliidid, mis toetavad teisi Hadoop alamprojekte.
  • Hadoopi hajutatud failisüsteem (HDFS): hajutatud failisüsteem Hadoop pakub juurdepääsu hajutatud failile rakenduse andmetele.
  • Hadoop MapReduce: Hadoop MapReduce on tarkvararaamistik suurte hajutatud andmekogumite töötlemiseks arvutusklastrites.
  • Hadoopi lõng: Hadoopi lõng on ressursside haldamise ja töö ajastamise raamistik.

Kuidas teeb MapReduce Hadoopis töötamise nii lihtsaks?

MapReduce muudab andmete töötlemise sadu või tuhandeid klastrimasinaid hõlpsaks. MapReduce mudel töötab tegelikult kahes etapis, mida nimetatakse kaardistamiseks ja vähendamiseks ning töötlemine vastavalt kaardistajaks ja reduktoriks. Kui kirjutame rakenduse jaoks MapReduce, on rakenduse mõõtkava suurendamine korduvate või isegi tuhandete klastrite mitmekordistamiseks lihtsalt konfiguratsiooni muutmine. See MapReduce'i mudeli funktsioon on meelitanud paljud programmeerijad seda kasutama.

Kuidas MapReduce Hadoopis töötab?

MapReduce'i programm rakendub peamiselt neljas etapis:

  1. Sisend jaguneb
  2. Kaart
  3. Sega
  4. Vähenda

Nüüd näeme igal sammul, kuidas nad töötavad.

1. Kaardi samm-

See samm on sisendmurdmise sammu ja kaardi sammu kombinatsioon. Sammus Kaart edastatakse lähtefail rida-realt. Enne sisestuse edastamist kaardifunktsiooni tööle jagatakse sisend väikseks fikseeritud suuruseks, mida nimetatakse sisendi lõhedeks. Sisendi osa on sisendi tükk, mida saab kasutada ühel kaardil. Sammus Kaardid edastatakse kõik jagatud andmed kaardistaja funktsioonile, siis kaardistaja funktsioon töötleb andmeid ja väljastab seejärel väärtused. Üldiselt on kaardi või kaardistaja töö sisendandmed faili või kataloogi kujul, mida hoitakse Hadoopi failisüsteemis (HDFS).

2. Vähendage sammu-

See samm on kombinatsioon Shuffle ja Reduce. Vähendamisfunktsioon või redutseerija töö võtab kaardifunktsiooni tulemusel saadud andmed. Pärast töötlemist funktsiooni vähendamisega saadakse uus tulemuste komplekt, mis taas salvestatakse HDFS-i.

Hadoopi raamistikus pole kindel, kas iga klaster täidab seda tööd, kas Map või Reduce või nii Map and Reduce. Nii et ülesannete Kaardistamine ja Vähendamine tuleks saata klastri vastavatesse serveritesse. Hadoopi raamistik ise haldab kõiki ülesandeid väljaandmine, töö lõpuleviimise kontrollimine, HDFS-ist andmete hankimine, andmete kopeerimine sõlmede klastrisse ja nii kõik. Hadoopis toimub arvutamine enamasti sõlmedes koos sõlmedes olevate andmetega, mis vähendab võrguliiklust.

Seega on MapReduce'i raamistik Hadoopi raamistikus väga kasulik.

MapReduce eelised

  1. Skaleeritavus - MapReduce, mis muudab Hadoopi väga skaalautuvaks, kuna see võimaldab salvestada suuri andmekogumeid jaotades neid mitmesse serverisse. Kuna see on jaotatud mitmeks, võib see töötada paralleelselt.
  2. Tasuv lahendus - MapReduce pakub väga kuluefektiivset lahendust ettevõtetele, kes peavad kasvavaid andmeid salvestama ja andmeid töötlema väga kuluefektiivsel viisil, mis on tänapäeva ettevõtte vajadus.
  3. Paindlikkus - MapReduce muudab Hadoopi väga paindlikuks erinevate andmeallikate ja isegi erinevat tüüpi andmete, näiteks struktureeritud või struktureerimata andmete jaoks. Seega muudab see struktureeritud või struktureerimata andmetele juurdepääsu ja nende töötlemise väga paindlikuks.
  4. Kiire - kui Hadoopi salvestusandmed hajutatud failisüsteemis, mille abil klastri lokaalsele kettale ja MapReduce'i programmidele salvestatud andmed asuvad üldiselt ka samades serverites, mis võimaldab andmete kiiremat töötlemist, kui pole vaja juurde pääseda teiste serverite andmeid.
  5. Paralleelne töötlemine - kuna Hadoopi salvestusandmed hajutatud failisüsteemis ja MapReduce'i programmi töö on selline, et see jagab ülesannete kaardistamise ja vähendamise ning mida saab paralleelselt täita. Ja jällegi vähendab see paralleelse täitmise tõttu kogu tööaega.

Oskused

Hadoopi MapReduce nõutavad oskused on Java heade programmeerimisteadmiste (kohustuslik), Linuxi opsüsteemi ja SQL päringute tundmine.

Hadoopi MapReduce'i ulatus

MapReduce Hadoopis on kiiresti arenev väli, kuna suurandmete väli kasvab, seega on MapReduce Hadoopis ulatus tulevikus väga paljutõotav, kuna struktureeritud ja struktureerimata andmete hulk kasvab iga päevaga plahvatuslikult. Sotsiaalmeediaplatvormid genereerivad palju struktureerimata andmeid, mida saab kaevandada, et saada tõeline ülevaade erinevatest domeenidest.

Järeldus

  • MapReduce on Hadoopi raamistik, mida kasutatakse suurte riistvaraklastrite tohutu hulga andmete paralleelseks töötlemiseks usaldusväärsel viisil.
  • Apache Hadoopi projekt sisaldab mitmeid alamprojekte nagu Hadoop Common, Hadoopi hajutatud failisüsteem (HDFS), Hadoop MapReduce, Hadoop YARN.
  • Kaardietapis edastatakse kõik jagatud andmed kaardistaja funktsioonile, siis kaardistaja funktsioon töötleb andmeid ja väljastab seejärel väärtused.
  • Vähendamisfunktsioon või redutseerija töö võtab kaardifunktsiooni tulemusel saadud andmed.
  • MapReduce'i eelised on järgmised: Skaalautuvus, Tasuv lahendus, Paindlikkus, Kiire, Paralleelne töötlemine.

Soovitatavad artiklid

See on olnud teemaks Mis on MapReduce Hadoopis. Siin arutasime Hadoopis MapReduce'i komponente, töötamist, oskusi, karjäärikasvu ja eeliseid. Lisateabe saamiseks võite tutvuda ka meie teiste soovitatud artiklitega

  1. Mis on algoritm?
  2. Erinevused Hadoopi ja MapReduce'i vahel
  3. Mis on Azure?
  4. Mis on suurandmete tehnoloogia?
  5. Kuidas MapReduce töötab?