Hadoopi klastri intervjuu küsimused ja vastused

Selle artikli eesmärk on aidata kõigil suurandmete pürgijatel vastata kõigile Hadoopi klastri intervjuu küsimustele, mis on seotud organisatsiooni suurandmete keskkonna seadistamisega. See küsimustik on abiks andmesõlmede, nimesõlme seadistamisel ja suurandmete deemonite hostitud serveri mahu määratlemisel.

Nii et kui olete lõpuks leidnud oma unistuste töö Hadoopi klastrist, kuid mõtlete, kuidas Hadoopi klastri intervjuust lahti saada ja millised võiksid olla Hadoopi klastri intervjuu tõenäolised küsimused. Iga vestlus on erinev ja ka töö ulatus. Seda meeles pidades oleme välja töötanud kõige tavalisemad Hadoopi klastri intervjuu küsimused ja vastused, mis aitavad teil intervjuus edu saavutada.

Mõned kõige olulisemad Hadoopi klastri intervjuu küsimused, mida intervjuul sageli küsitakse, on järgmised:

1.Millised on Hadoopi klastri peamised komponendid?

Vastus:
Hadoop on raamistik, kus töötleme suurandmeid või Hadoop on platvorm, kus saab tohutul hulgal andmeid kaubaserverites töödelda. Hadoop on paljude komponentide kombinatsioon. Järgnevalt on toodud peamised komponendid Hadoopi keskkonnas.
Nimesõlm : See on peasõlm, mis hoolitseb kogu andmesõlmede teabe ja andmete salvestamise asukoha eest metaandmete vormingus.
Teisene nimesõlm : see toimib primaarse nimesõlmena, kui esmane nimesõlm väheneb.
HDFS (Hadoopi hajutatud failisüsteem) : see hoolitseb Hadoopi klastri kogu ladustamise eest.
Andmesõlmed : Andmesõlmed on alamsõlmed. Tegelikud andmed salvestatakse orjasõlmedesse töötlemiseks.
Lõng (veel üks ressursiläbirääkija) : tarkvararaamistik rakenduste kirjutamiseks ja tohutu hulga andmete töötlemiseks. See pakub samu funktsioone kui MapReduce, lisaks võimaldaks see igal pakkimistööl paralleelselt Hadoopi klastris töötada.

2.Kuidas kavandada andmete salvestamist Hadoopi klastris?

Vastus:
Salvestusruum põhineb valemil (Storage = Igapäevane andmete sisestamine * replikatsioon).
Kui Hadoopi klaster hangib andmeid iga päev 120 TB ja meil on vaikimisi korduvustegur, siis oleks igapäevase andmete salvestamise nõue
Salvestusvajadus = 120 TB (igapäevane andmete tarbimine) * 3 (vaikimisi replikatsioon) => 360 TB
Selle tulemusel peame igapäevase andmete sisestamise nõude jaoks seadistama vähemalt 360 TB andmeklastri.
Salvestusruum sõltub ka andmete säilitamise nõudest. Juhul kui soovime, et andmeid säilitataks samas klastris 2 aastat, tuleb meil andmesõlmed korrastada vastavalt säilitamisnõudele.

3.Arvuge andmesõlme numbrid.

Vastus:
Peame arvutama hulga Hadoopi klastri jaoks vajalikke andmesõlmi. Oletame, et meil on servereid, mille JBOD on 10 ketast ja igal kettal on 4 TB salvestusmaht, nii et igal serveril on 40 TB salvestusruumi. Hadoopi klaster saab pärast vaikimisi kasutatava replikatsiooniteguri rakendamist andmeid 120 TB päevas ja 360 TB.
Andmesõlmede arv = igapäevane andmete sisestamine / andmesõlme maht
Andmesõlmede arv = 360/40 => 9 andmesõlme
Seega, kui Hadoopi klaster saab 120 TB andmeid ülaltoodud konfiguratsiooniga, tuleb seadistada ainult 9 andmesõlme.

4.Kuidas muuta Hadoopi klastri replikatsioonifaktorit?

Vastus:
Redigeerige faili hdfs-site.xml. Vaiketee asub Hadoopi installikataloogi kataloogis konf / kaust. muuda / lisa järgmine hdfs-site.xml atribuut:
dfs.replication
3
Blokeeri replikatsioon
Kordusteguri 3 olemasolu ei ole kohustuslik. Selle saab ka seada 1-ks. Replikatsioonifaktor 5 töötab ka Hadoopi klastris. Vaikeväärtuse seadistamine muudab klastri efektiivsemaks ja vajalik on minimaalne riistvara.
Replikatsiooniteguri suurendamine suurendaks riistvara nõudlust, kuna andmesalvestus korrutatakse replikatsiooniteguriga.

5.Milline on Hadoopis andmeploki vaikesuurus ja kuidas seda muuta?

Vastus:
Ploki suurus vähendage / jagage andmed plokkideks ja salvestage see erinevatele andmetesõlmedele.
Vaikimisi on ploki maht 128 MB (Apache Hadoopis) ja me saame vaikimisi ploki suurust muuta.
Redigeerige faili hdfs-site.xml. Vaiketee asub Hadoopi installikataloogi kataloogis konf / kaust. muuda / lisa järgmine hdfs-site.xml atribuut:
dfs.block.size
134217728
Ploki suurus
ploki suurus baitides on 134 217 728 või 128 MB. Samuti määrake suurus sufiksiga (tõstutundlik), näiteks k (kilo-), m (mega-), g (giga-) või t (tera-), et seada ploki suurus KB, MB, TB jne.

6.Kuidas Hadoopi klaster peaks kustutatud HDFS-faili hoidma kustutus- / prügikataloogis?

Vastus:
“Fs.trash.interval” on parameeter, mis täpsustab, kui kaua HDFS suudab kustutatud faili taastamiseks Hadoopi keskkonnas mis tahes kustutatud faili säilitada.
Ajavahemiku saab määratleda ainult minutites. Kahepäevase otsingu intervalli jaoks peame atribuudi määratlema voolav vormingus.
Redigeerige faili core-site.xml ja lisage / muutke seda järgmise atribuudi abil
fs.trash.intervall
2880
Vaikimisi on väljastusintervall 0, kuid Hadoopi administraator saab ülaltoodud omadusi vastavalt nõudele lisada / muuta.

7.Millised on põhilised käsud Hadoopi deemonite käivitamiseks ja peatamiseks?

Vastus:
Kõik käsud sbin / kausta salvestatud deemonite käivitamiseks ja peatamiseks.
./sbin/stop-all.sh - kõigi deemonite korraga peatamiseks.
hadoop-daemon.sh algusnime sõlm
Hadoop-daemon.sh lähteandmesõlm
yarn-daemon.sh, käivitage ressursside haldur
yarn-daemon.sh, käivitage sõlmehaldur
mr-jobhistory-daemon.sh algusaja server

8.Milline on omadus mälu eraldamiseks YARNi hallatavate ülesannete jaoks?

Vastus:
Atribuuti „yarn.nodemanager.resource.memory-mb” tuleb muuta / lisada, et muuta mälu jaotust kõigile YARN-i hallatavatele toimingutele.
See täpsustab RAM-i mahtu MB-des. Andmesõlmed võtavad lõnga jaoks 70% tegelikust RAM-ist. 96 GB-ga andmesõlm kasutab lõnga YARN jaoks 68 GB, ülejäänud RAM-i kasutab andmesõlme deemon “Non-YARN-Work” jaoks
Muutke faili “yarn.xml file” ja lisage / muutke järgmist atribuuti.
lõng.nodemanager.allikas.mälu-mb
68608
yarn.nodemanager.resource.memory-mb vaikeväärtus on 8 192 MB (8 GB). Kui andmesõlmedel on suur RAM-i maht, peame muutma väärtuseks kuni 70%. Muidu kulutame oma mälu.

9.Millised on nimesõlme suuruse määramise soovitused?

Vastus:
Algses etapis põhisõlme seadistamiseks on soovitatav järgmine teave.
Protsessorid: protsesside jaoks piisab ühest 6-8 südamikuga protsessorist.
RAM-mälu: andmete ja tööde töötlemiseks peaks serveril olema vähemalt 24–96 GB RAM-i.
Salvestusruum: kuna põhisõlme HDFS-andmeid ei salvestata. Kohaliku salvestusruumina saate kasutada 1-2 TB
Kuna tulevasi töökoormusi on keeruline otsustada, kujundage klaster nii, et valite riistvara, näiteks CPU, RAM ja mälu, mida on aja jooksul hõlpsasti võimalik uuendada.

10.Millised on Hadoopi klastri vaikesadamid?

Vastus:

Deemoni nimiVaikimisi port nr
Nimesõlm.50070
Andmesõlmed.50075
Teisene nime sõlm.50090
Varukoopia / kontrollpunkti sõlm.50105
Tööotsija.50030
Tööülesannete jälgijad.50060

Soovitatavad artiklid

See on olnud Hadoopi klastri intervjuu küsimuste ja vastuste loendi juhend, et kandidaat saaks hõlpsalt neid Hadoopi klastri intervjuu küsimusi lahendada. Lisateabe saamiseks võite vaadata ka järgmisi artikleid -

  1. Elasticsearchi intervjuu küsimused ja vastused ülaosas ning kõige kasulikumad
  2. 9 hämmastavat MapReduce'i intervjuu küsimust ja vastust
  3. 8 Big Data küsitluse kõige kasulikum juhend
  4. ETL-i intervjuu küsimused ja vastus, mida peaks teadma