Mis on MapReduce'i algoritm?

MapReduce'i algoritm on peamiselt inspireeritud funktsionaalse programmeerimise mudelist. Seda kasutatakse suurandmete töötlemiseks ja genereerimiseks. Neid andmekogumeid saab käivitada üheaegselt ja jaotada klastrisse. MapReduce programm koosneb peamiselt kaardiprotseduurist ja redutseerimismeetodist, et teostada kokkuvõtvat toimingut, näiteks loendada või anda tulemusi. MapReduce süsteem töötab hajutatud serverites, mis töötavad paralleelselt ja haldavad kogu kommunikatsiooni erinevate süsteemide vahel. Mudel on jagatud rakenduste kombineerimise eristrateegia, mis aitab andmete analüüsimisel. Kaardistamise teeb Mapperi klass ja vähendab ülesande Reducer klass.

MapReduce'i algoritmi mõistmine

MapReduce algoritm töötab peamiselt kolmes etapis:

  • Kaardi funktsioon
  • Juhuesitusfunktsioon
  • Funktsiooni vähendamine

Arutlegem iga funktsiooni ja selle vastutuse üle.

1. Kaardi funktsioon

See on MapReduce'i algoritmi esimene samm. See võtab andmekogumid ja jaotab need väiksemateks alamülesanneteks. Seda tehakse kahes etapis, jagades ja kaardistades. Jagades võetakse sisendandmed ja jagatakse andmekogum, kaardistamise ajal võetakse need andmete alamhulgad ja tehakse nõutav toiming. Selle funktsiooni väljund on võtme-väärtuste paar.

2. Juhuesitusfunktsioon

Seda nimetatakse ka kombineerimisfunktsiooniks ning see hõlmab ühendamist ja sortimist. Ühendamine ühendab kõik võtme-väärtuse paarid. Kõigil neil on samad võtmed. Sorteerimine võtab sisendi liitmisastmest ja sorteerib klahvide abil kõik võtme-väärtuse paarid. See samm naaseb ka võtme-väärtuste paaride juurde. Väljund sorteeritakse.

3. Vähendage funktsiooni

See on selle algoritmi viimane samm. See võtab jaotusest võtme-väärtuse paarid ja vähendab toimingut.

Kuidas MapReduce'i algoritmid töötamise lihtsaks teevad?

Relatsioonandmebaasisüsteemidel on tsentraliseeritud server, mis aitab andmeid säilitada ja töödelda. Need olid tavaliselt tsentraliseeritud süsteemid. Kui pildile tuleb mitu faili, on töötlemine tüütu ja loob mitme faili töötlemisel kitsaskoha. MapReduce kaardistab andmekogumi ja teisendab andmekogumi, kus kõik andmed on jagatud tuppidesse ja vähendamise ülesanne võtab selle sammu väljundi ja ühendab need andmestikud väiksemateks komplektideks. See töötab erinevates faasides ja loob võtme-väärtuse paarid, mida saab jagada erinevate süsteemide vahel.

Mida saate teha MapReduce'i algoritmidega?

MapReduce'i saab kasutada mitmesuguste rakendustega. Seda saab kasutada hajutatud mustripõhisel otsingul, hajutatud sorteerimisel, veebilinkide graafiku ümberpööramisel, veebipääsu logide statistikas. See võib aidata ka mitmete klastrite, töölauavõrkude ja vabatahtlike arvutuskeskkondade loomisel ja töötamisel. Samuti saab luua dünaamilisi pilvekeskkondi, mobiilseid keskkondi ja ka suure jõudlusega arvutuskeskkondi. Google kasutas MapReduce'i, mis taastab veebis Google'i indeksi. Selle abil värskendatakse vanu sihtprogramme ja need on läbi viinud erinevat tüüpi analüüse. See integreeris ka reaalajas otsingutulemid ilma kogu indeksit uuesti üles ehitamata. Kõik sisendid ja väljundid salvestatakse hajutatud failisüsteemi. Mööduvaid andmeid salvestatakse kohalikule kettale.

Töö MapReduce'i algoritmiga

MapReduce'i algoritmiga töötamiseks peate teadma, kuidas see töötab. Neelatud andmed läbivad järgmised sammud:

1. Sisendi jaotused: kõik sisendandmed, mis tulevad MapReduce'i töösse, jagunevad võrdseteks tükkideks, mida nimetatakse sisendmurdudeks. See on sisendi tükk, mida saab kasutada iga kaardistaja.

2. Kaardistamine: Kui andmed on tükkideks jagatud, läbib see kaardistamise programmis kaardistamise faasi. Need jagatud andmed edastatakse kaardistamisfunktsioonile, mis annab erinevad väljundväärtused.

3. Segamine: kui kaardistamine on tehtud, saadetakse andmed sellesse faasi. Selle ülesandeks on eelmises etapis vajalike kirjete liitmine.

4. Redutseerimine: selles faasis liidetakse segamisfaasist saadav väljund. Selles faasis kõik väärtused segatakse ja koondatakse kokku nii, et see annab ühe väljundväärtuse. See loob täieliku andmekogumi kokkuvõtte.

MapReduce'i algoritmi eelised

MapReduce'i kasutavatel rakendustel on järgmised eelised:

  1. Neile on tagatud lähenemine ja hea üldistusvõime.
  2. Andmeid saab töödelda andmemahukate rakenduste abil.
  3. See tagab suure mastaapsuse.
  4. Iga sõna esinemiste loendamine on lihtne ja sellel on mahukas dokumendikogu.
  5. Tööriista otsimiseks saab paljude andmete analüüsimisel kasutada üldist tööriista.
  6. See pakub koorma tasakaalustamise aega suurtes klastrites.
  7. See aitab ka kasutajate asukoha, olukordade jms kontekstide eraldamisel.
  8. See pääseb kiiresti juurde suurtele vastajate valimitele.

Miks peaksime kasutama MapReduce'i algoritmi?

MapReduce on rakendus, mida kasutatakse tohutute andmekogumite töötlemiseks. Neid andmekogumeid saab töödelda paralleelselt. MapReduce võib potentsiaalselt luua suuri andmekogumeid ja palju sõlme. Neid suuri andmekogumeid hoitakse HDFS-is, mis muudab andmete analüüsi lihtsamaks. See võib töödelda mis tahes tüüpi andmeid, näiteks struktureeritud, struktureerimata või poolstruktureeritud.

Miks on meil vaja MapReduce'i algoritmi?

MapReduce kasvab kiiresti ja aitab paralleelselt arvuti kasutamist. See aitab toodete hinda kindlaks määrata ja teenib suurimat kasumit. Samuti aitab see prognoosida ja analüüse soovitada. See võimaldab programmeerijatel käitada mudeleid erinevatel andmekogumitel ning kasutab täiustatud statistilisi tehnikaid ja masinõppe tehnikaid, mis aitavad andmeid ennustada. See filtreerib ja saadab andmed klastri erinevatesse sõlmedesse ja toimib vastavalt kaardistaja ja reduktori funktsioonile.

Kuidas see tehnoloogia aitab teid karjäärikasvus?

Hadoop on tänapäeval üks soovitud töökohti. See kiirendab tempot ja võimalust, mis kasvab selles valdkonnas väga kiiresti. Selles piirkonnas on buum veelgi suurem. Javas töötavatel IT-spetsialistidel on plusspunkt, kuna nad on ihaldatuimad inimesed. Samuti saavad arendajad, andmearhitektid, andmelao ja BI-spetsialistid selle tehnoloogia õppimisega ära võtta tohutu palga.

Järeldus

MapReduce on Hadoopi raamistiku põhialus. Seda õppides pääsete kindlasti andmeanalüüsi turule. Saate seda põhjalikult õppida ja teada saada, kui suuri andmekomplekte töödeldakse ja kuidas see tehnoloogia andmete töötlemise ja salvestamisega muudatusi toob.

Soovitatavad artiklid

See on MapReduce'i algoritmide juhend. Siin käsitleme kontseptsiooni, mõistmist, töötamist, vajadust, eeliseid ja karjäärikasvu. Lisateavet leiate ka meie muudest soovitatud artiklitest -

  1. MapReduce'i intervjuu küsimused
  2. Mis on MapReduce Hadoopis?
  3. Kuidas MapReduce töötab?
  4. Mis on MapReduce?
  5. Erinevused Hadoopi ja MapReduce'i vahel
  6. Tuples seotud erinevad operatsioonid

Kategooria: