Sissejuhatus MapReduce'i intervjuu küsimuste ja vastuste juurde

MapReduce on lihtne paralleelne andmete programmeerimise mudel, mis on loodud skaleeritavuse ja tõrketaluvuse saavutamiseks. Võib öelda, et MapReduce on raamistik, mis kasutab sõlmede kontseptsiooni suurtes andmekogumites tekkivate probleemide paralleelistamiseks. Kui tegemist on kohaliku võrguga, kasutab see sama riistvara ja kui MapReduce on geograafiliselt levitatud, kasutab see vastavalt erinevat riistvara. MapReduce koosneb peamiselt funktsioonist Map () ja Reduce (). Selle tegi populaarseks avatud lähtekoodiga projekt Hadoop.

Allpool on toodud 9 olulist 2019. aasta MapReduce'i intervjuu küsimust ja vastust:

Kui otsite tööd, mis on seotud MapReduce'iga, peate valmistuma 2019. aasta MapReduce'i intervjuuküsimusteks. Ehkki iga MapReduce'i intervjuu on erinev ja ka töö maht on erinev, saame aidata teid kõige populaarsemate MapReduce'i intervjuu küsimustega koos vastustega, mis aitavad teil hüppe teha ja oma intervjuus edu saada.

Need küsimused jagunevad järgmisteks osadeks:

1. osa - MapReduce'i intervjuu küsimused (põhilised)

See esimene osa hõlmab põhilisi MapReduce'i intervjuu küsimusi ja vastuseid.

1. Mis on MapReduce?

Vastus:
MapReduce on lihtne paralleelne andmete programmeerimise mudel, mis on loodud skaleeritavuse ja tõrketaluvuse saavutamiseks. Teisisõnu, see on raamistik, mis töötleb suurte andmekomplektide paralleelselt lahendatavaid probleeme, kasutades sõlmede (arvutite arv) mõistet, mis omakorda klassifitseeritakse klastriteks, kui see on kohalik võrk ja kasutab sama riistvara või võrku, kui need on olemas. geograafiliselt levitatud ja kasutada erinevat riistvara. MapReduce koosneb peamiselt funktsioonist Map () ja Reduce () funktsioonist. See oli Google'i teerajaja ja töötleb iga päev palju petabaite andmeid. Selle tegi populaarseks avatud lähtekoodiga Hadoopi projekt ning seda kasutatakse Yahoo, Facebooki ja Amazoni nimetamiseks.

2. Milleks MapReduce'i ettevõte kasutab?

Vastus:
Google
• Google'i otsingu indeksi koostamine
Positsioonilise või mittepositsioonilise indeksi konstrueerimise protsessi nimetatakse indeksi koostamiseks või indekseerimiseks. MapReduce'i roll on Index Construction ja see on mõeldud suurtele arvutiklastritele. Klastri eesmärk on lahendada arvutusprobleemid sõlmedele või arvutitele, mis on ehitatud standardsete osade, mitte superarvuti asemel.
• Google'i uudiste artiklite klasterdamine
Artiklite rühmitamiseks klassifitseeritakse lehed kõigepealt selle järgi, kas neid on klastrimiseks vaja. Lehed sisaldavad palju teavet, mida klastrimiseks pole vaja. Seejärel tuuakse artikkel vektorvormile, mis põhineb märksõnadel ja kaalul, millele see antakse. Seejärel rühmitatakse need algoritmide abil.
• Statistiline masintõlge
Kakskeelsete tekstikorpuste tõlkimine analüüsi abil genereerib statistilisi mudeleid, mis tõlgivad raskusi kasutades ühte keelt teise ja taandatakse kõige tõenäolisemaks tõlkeks.
Yahoo
• Yahoo! käivitav veebikaart Otsing
Sarnaselt Google Newsi artiklite rühmitamisega kasutatakse MapReduce'i otsingutulemite rühmitamiseks Yahoo! Platvorm.
• Yahoo! rämpsposti tuvastamine Mail
Facebook
•Andmete kaevandamine
Hiljutine andmete plahvatuse suundumus on tinginud vajaduse keerukate meetodite järele, et jagada andmed tükkideks, mida saaks hõlpsalt kasutada järgmises analüüsietapis.
• d Optimeerimine
• Rämpsposti tuvastamine

Liigume järgmiste MapReduce'i intervjuu küsimuste juurde.

3. Mis on MapReduce'i kujundamise eesmärgid?

Vastus:
Skaalautuvus suurte andmemahtude jaoks
Kuna MapReduce on raamistik, mille eesmärk on töötada paralleelsete andmetega, kasutades kontseptsiooni sõlmedest, mille arv arvuteid on kas klastrites või ruudustikes, on see skaleeritav n arv arvutimasinaid. MapReduce'i üks silmapaistev disaini eesmärk on see, et see on skaleeritav kuni 1000 masinat ja seega 10 000 ketast.
Kuluefektiivsus
Kuna MapReduce töötab andmete paralleelsusega sõlmedes või arvutite arv, muudavad selle kulutasuvaks järgmised põhjused:
- Odavad superarvuti asemel tarbekaubad. Kuigi need on odavad, on nad ebausaldusväärsed.
-Tootevõrk
-Automaatne tõrketaluvus, st vaja on vähem administraatoreid.
-See on lihtne kasutada, st see nõuab vähem programmeerijaid.

4. Millised on MapReduce'i väljakutsed?

Vastus:
See on tavaline MapReduce Intervjuu küsimus, mida intervjuus küsitakse. MapReduce'i peamised väljakutsed on järgmised:
-Peade sõlmed ebaõnnestuvad, eriti kui neid on palju
Keskmine rikete vaheline aeg ühe sõlme vahel on 3 aastat. Keskmine rikete vaheline aeg 1000 sõlme korral on võrdne 1 päevaga. Lahendus on rikkekindluse loomine süsteemi enda sisse.
-Tootevõrk on võrdne või eeldab madalat ribalaiust
Madala ribalaiuse lahendus on arvutuste viimine andmetele.
- Hajutatud süsteemide programmeerimine on keeruline
Lahendus on see, et vastavalt andmete paralleelse programmeerimise mudelile kirjutavad kasutajad funktsioonid kaardil ja vähenda. Süsteem jaotab tööd ja tegeleb riketega.

5. Mis on MapReduce'i programmeerimismudel?

Vastus:
MapReduce'i programmeerimismudel põhineb kontseptsioonil, mida nimetatakse võtmeväärtuse kirjeteks. See pakub ka paralleelse andmetöötluse paradigmasid. Andmete töötlemiseks MapReduce'is tuleb nii sisendandmed kui ka väljund kaardistada mitme võtme-väärtuse paari vormingusse. Ühtset võtme-väärtuse paari nimetatakse ka kirjeks. Programmeerimismudel MapReduce koosneb funktsioonist Map () ja funktsioonist Reduce. Nende mudel on järgmine.
Kaardi () funktsioon: (K sisse, V sisse) loend (K vahele, V vahele)
Reduce () funktsioon: (K inter, list (V inter)) list (K out, V out)

2. osa - MapReduce'i intervjuu küsimused (täpsemad)

Vaadakem nüüd üksikasjalikke MapReduce'i intervjuu küsimusi.

6. Millised on MapReduce'i täitmise üksikasjad?

Vastus:
MapReduce'i täitmise korral kontrollib üks isand tööülesannete täitmist mitmel alluvil. Kaardistajad eelistatakse paigutada samasse sõlme või samale rackile kui nende sisendplokk, nii et see minimeerib võrgu kasutamist. Samuti salvestavad kaardistajad väljundid kohalikule kettale enne redigeerijate teenindamist. See võimaldab taastamist, kui reduktor jookseb kokku, ja lubab rohkem reduktoreid kui sõlmi.

7. Mis on kombinaator?

Vastus:
Kombinaator, mida tuntakse ka kui poolreduktorit, töötab sisendite vastuvõtmisel klassi kaardilt ja väljundi võtme-väärtuse paaride viimisel reduktoriklassi. Kombinaatori põhiülesanne on kaardiväljundi kirjete kokkuvõte sama võtmega. Teisisõnu, kombineerija on sama kaardi toodetud korduvate võtmete lokaalne liitmisfunktsioon. See töötab assotsiatiivsete funktsioonide jaoks nagu SUM, COUNT ja MAX. See vähendab vaheandmete mahtu, kuna see on kõigi korduvate võtmete väärtuste koondamise kokkuvõte.

Liigume järgmiste MapReduce'i intervjuu küsimuste juurde.

8.Miks siga? Miks mitte MapReduce?

Vastus:
• MapReduce võimaldab programmeerijal täita kaardifunktsiooni, millele järgneb vähendamisfunktsioon, kuid väljakutse võib osutuda töötamine selle üle, kuidas teie andmetöötlus sellesse mustrisse sobitada, mis nõuab sageli mitut MapReduce'i etappi.
• Pigiga on andmestruktuurid palju rikkamad, kuna need on mitme väärtusega ja pesastatud ning teisenduste komplekt, mida saate andmetele rakendada, on palju võimsam. Näiteks hõlmavad need liitumisi, mis pole MapReduce'is võimalikud.
• Samuti on siga üks programm, mis muudab muundumise MapReduce'i töö seeriaks.

9.MapRedce kriitika

Vastus:
MapReduce'i üks silmapaistev kriitika on see, et arendustsükkel on väga pikk. Kaardistajate ja reduktorite kirjutamine, koodi koostamine ja pakendamine, töö esitamine ja tulemuste saamine on aeganõudev. Isegi voogesituse abil, mis eemaldab kompileerimise ja pakkimise etapi, võtab kogemus endiselt palju aega.

Soovitatav artikkel

See on olnud juhend MapReduce'i intervjuu küsimuste ja vastuste loendisse, nii et kandidaat saaks neid MapReduce'i intervjuu küsimusi hõlpsalt lahendada. Lisateabe saamiseks võite vaadata ka järgmisi artikleid -

  1. Olulised andmeanalüüsi intervjuu küsimused
  2. 10 parimat küsimust intervjuu kujundamise kohta
  3. Elasticsearchi intervjuu küsimused
  4. Kõige kasulikumad rubiinintervjuu küsimused
  5. Kuidas MapReduce töötab?