Sissejuhatus sädeintervjuu küsimuste ja vastuste juurde
Apache Spark on avatud lähtekoodiga raamistik. Spark, kuna see on avatud lähtekoodiga platvorm, võime kasutada mitut programmeerimiskeelt, näiteks Java, python, Scala, R. Võrreldes protsessi jõudluse kaardistamise vähendamisega aitab säde täidesaatvuse parandamisel. Samuti pakub see mälupulga täitmist 100 korda kiiremini kui Map-Reduce. Kuna säde on töötlemisvõimsus, eelistavad tänapäeval tööstust sädemed.
Nii et olete lõpuks leidnud oma unistuste töö Sparkist, kuid mõtlete, kuidas Sparki intervjuud lõhestada ja mis võiksid olla tõenäolised Sparki intervjuu küsimused aastaks 2018. Iga intervjuu on erinev ja ka tööülesannete ulatus on erinev. Seda meeles pidades oleme välja töötanud 2018. aasta kõige tavalisemad Sparki intervjuu küsimused ja vastused, mis aitavad teil oma intervjuul edu saavutada.
Need küsimused jagunevad kaheks osaks
1. osa - sädeintervjuu küsimused (põhilised)
See esimene osa hõlmab Sparki intervjuu põhiküsimusi ja vastuseid
1. Mis on säde?
Vastus:
Apache Spark on avatud lähtekoodiga raamistik. See parandab täitmise jõudlust kui Map-Reduce protsess. See on avatud platvorm, kus saame kasutada mitut programmeerimiskeelt, näiteks Java, Python, Scala, R. Spark pakub mälusisese täitmise, mis on 100 korda kiirem kui Map-Reduce. Selles kasutatakse RDD mõistet. RDD on paindlik hajutatud andmestik, mis võimaldab tal andmeid mälus läbipaistvalt säilitada ja diskeerida ainult vajaminevat. See vähendab ketta asemel mälu kaudu andmete juurde pääsemise aega. Tänapäeval eelistab tööstusharu Spark oma töötlemisvõimsuse tõttu.
2. Erinevus Hadoopi ja Sparki vahel?
Vastus:
Funktsiooni kriteeriumid | Apache säde | Hadoop |
Kiirus | 10 kuni 100 korda kiirem kui Hadoop | Tavaline kiirus |
Töötlemine | Reaalajas ja pakkide töötlemine, mälusisene vahemälu | Ainult partii töötlemine, kettast sõltuv |
Raskus | Kõrgetasemeliste moodulite tõttu lihtne | Raske õppida |
Taastumine | Võimaldab partitsioonide taastamist RDD abil | Veatolerants |
Interaktiivsus | Tal on interaktiivsed, interaktiivsed režiimid | Pole ühtegi interaktiivset režiimi, välja arvatud siga ja taru, pole iteratiivset režiimi |
Tavaline Hadoopi arhitektuur järgib põhilisi kaardi vähendamise põhimõtteid. Sama protsessi jaoks pakub säde mälusisese täitmise. Map-Reduce'i kõvakettalt lugemise-kirjutamise asemel pakub säde virtuaalsest mälust lugemis-kirjutamisvõimalust.
Liigume järgmiste Spark Intervjuu küsimuste juurde
3. Millised on sädeme omadused?
Vastus:
- Pakkuge integratsioonivõimalust Hadoopi ja failidega HDFS-is. Spark võib HADoopi peal joosta, kasutades YARNi ressursiklastrit. Spark suudab asendada Hadoopi Map-Reduce mootorit.
- Polyglot: Spark Pakkuge Java, Python, Scala ja R. jaoks kõrgetasemelist API-t. Spark Code võib olla kirjutatud ükskõik millises neist neljast keeles. IT pakub skaala jaoks sõltumatut kesta (keel, milles Spark kirjutatakse) ja pütoni tõlki. Mis aitab sädemootoriga suhelda? Scala kestale pääseb installitud kataloogist ./bin/spark-shelli kaudu ja Pythoni kesta kaudu ./bin/pysparki kaudu.
- Kiirus: suuremahulise andmetöötluse jaoks on sädemootor 100 korda kiirem kui Hadoop Map-Reduce. Kiirus saavutatakse jaotamise teel, et paralleelselt hajutatud andmetöötlust minimaalse võrguliiklusega. Spark Esitage RDD (elastsed hajutatud andmestikud), mida saab vahemällu salvestada klastri arvutisõlmedele
- Mitu vormingut: Sparkil on andmeallika API. See pakub mehhanismi struktureeritud andmetele juurde pääsemiseks SQL-i kaudu. Andmeallikad võivad olla ükskõik mida, Spark loob lihtsalt mehhanismi andmete teisendamiseks ja sädemesse tõmbamiseks. Spark toetab mitmeid andmeallikaid nagu Hive, HBase, Cassandra, JSON, Parquet, ORC.
- Spark pakub mõnda sisseehitatud raamatukogu, mis võimaldavad mitmest samast tuumast koosnevaid ülesandeid täita, näiteks pakkide töötlemine, aurutamine, masinõpe, interaktiivsed SQL-päringud. Hadoop toetab aga ainult partiide töötlemist. Spark Esitage MLIb (masinõppe raamatukogud), millest on Big-Data Developerile abi andmete töötlemisel. See aitab eemaldada sõltuvust mitmest tööriistast erinevatel eesmärkidel. Spark pakub andmete inseneridele ja andmeteadlastele ühist võimsat platvormi, millel on nii kiire jõudlus kui ka lihtne kasutada.
- Apache Spark lükkab protsessi täitmise edasi, kuni toiming on vajalik. See on säde üks peamisi omadusi. Spark lisab iga teisenduse DAG-i (otsene tsükliline graafik) täitmiseks ja kui toiming soovib seda käivitada, käivitab see DAG-i tegelikult töödelda.
- Reaalajas voogesitus: Apache Spark pakub mälusisese täitmise tõttu reaalajas arvutusi ja väikest latentsusaega. Spark on mõeldud suurte mastaapsuste jaoks, näiteks klastri tuhat sõlme ja arvutuste jaoks mitu mudelit.
4. Mis on lõng?
Vastus:
See on intervjuus küsitav Spark Intervjuu põhiküsimus. YARN (veel üks ressursiläbirääkija) on ressursside haldur. Spark on platvorm, mis tagab kiire täitmise. Spark kasutab klastrisse töö täitmiseks lõnga YARN, mitte oma sisseehitatud haldurit. Lõnga käitamiseks on mõned konfiguratsioonid. Need hõlmavad peamist, juurutusrežiimi, draiveri mälu, käitaja mälu, käitaja südamikke ja järjekorda. Alljärgnevas intervjuus küsitavad sädeme eelised on sädeme eelised:
Spark'i eelised võrreldes kaardiga vähenda
Sparkil on Map Reduce'i ees eeliseid järgmiselt: -
Mälusisese protsessi võime tõttu on Spark võimeline täitma 10 kuni 100 korda kiiremini kui Map-Reduce. Kus Map-Reduce saab andmete püsivuse jaoks kasutada Map and Reduce etapis.
Apache Spark pakub kõrgel tasemel sisseehitatud raamatukogusid, et töödelda korraga mitu toimingut, näiteks pakkide töötlemine, reaalajas voogesitus, Spark-SQL, struktureeritud voogesitus, MLib jne. Samal ajal pakub Hadoop ainult pakkimistöötlust.
Hadoopi kaardivähendamise protsess sõltub kettast, kus Spark pakub vahemälu ja mälusisaldust.
Sparkil on nii iteratiivne, arvutusprotseduuride kordamine samal andmestikul kui ka interaktiivne, arvutamine erinevate andmekogumite vahel, kus Hadoop iteratiivset arvutamist ei toeta.
5. Millist keelt Spark toetab?
Vastus:
Spark tugi scala, Python, R ja Java. Turul eelistab suurandmete arendaja enamasti skala ja python. Koodi koostamiseks vajaliku skaala jaoks on vaja määrata Path of scale / bin directory või jar-faili loomiseks.
6. Mis on RDD?
Vastus:
RDD on elastse hajutatud andmestiku abstraktsioon, mis pakub klastri kõigis sõlmedes jaotatud elementide kogumit, mis aitab mitu protsessi paralleelselt teostada. RDD arendaja abil saab andmeid mällu või vahemällu salvestada, et neid saaks toimingute paralleelseks täitmiseks tõhusalt taaskasutada. RDD-d saab sõlme rikkest hõlpsalt taastada.
2. osa - küsimused sädemevestluse kohta (täpsemad)
Vaadakem nüüd täpsemat Sparki intervjuu küsimust.
7. Millised tegurid põhjustavad Spark'i täitmist?
Vastus:
1. Spark pakub mälusisese täitmise kettast sõltuva (nt Hadoop Map-Reduce) asemel.
2.RDD elastsed hajutatud andmestikud, mis on klastri kõikides sõlmedes mitme toimingu vastutustundlik paralleelne teostamine.
3. Spark pakub jagatud muutuja funktsiooni paralleelseks täitmiseks. Need muutujad aitavad vähendada andmeedastust sõlmede vahel ja jagada kõigi sõlmede koopiaid. Muutujaid on kaks.
4.Broadcast muutuja: seda muutujat saab kasutada kõigi sõlmede mälus oleva väärtuse vahemällu salvestamiseks
5.Kumulaatorite muutuja: Seda muutujat lisatakse ainult loendurid ja summad.
8. Mis on täitja mälu?
Vastus:
See on intervjuus sagedamini küsitav Spark Intervjuu küsimus. See on sädete täitjale eraldatud hunniku suurus. Seda atribuuti saab juhtida spark.executor.memory omadusega lipu –executor-memory abil. Igal Spark-i rakendusel on iga töötaja sõlme jaoks üks täitja. See omadus viitab sellele, kui palju töötaja sõlmedele mälu rakendusele eraldatakse.
9. Kuidas te Spark Streami kasutate? Selgitage ühte kasutusjuhtu?
Vastus:
Spark Stream on üks funktsioonidest, mis on kasulikud reaalajas kasutamiseks. Sel eesmärgil võime kasutada sädemega flume, Kafka. Flume käivitab andmed allikast. Kafka säilitab andmed teemasse. Kafka juurest tõmbab Spark andmed voogu kasutades ja see voogesitab andmeid D-kujuliselt ning teostab ümberkujundamise.
Saame seda protsessi kasutada reaalajas kahtlaste tehingute tegemiseks, reaalajas pakkumiste tegemiseks jne.
Liigume järgmiste Spark Intervjuu küsimuste juurde
10. Kas me saame Sparki kasutada ETL-i protsessis?
Vastus:
Jah, me saame kasutada sädeplatvormi ETL-i protsessi jaoks.
11. Mis on Spark SQL?
Vastus:
See on üks säde erikomponent, mis toetab SQL päringuid.
12. Milline laisk hinnang?
Vastus:
Kui töötame sädemega, hinnatakse teisendusi alles pärast toimingu tegemist. See aitab optimeerida üldist andmetöötluse töövoogu. Teisenduse määratlemisel lisab see DAG-i (otsene tsükliline graafik). Ja tegevuse ajal hakkab see astmelisi muutusi teostama. See on kasulik intervjuus küsitav Sparki intervjuu küsimus.
Soovitatav artikkel
See on olnud juhend sädemevestluse küsimuste ja vastuste loendisse, et kandidaat saaks neid säde intervjuu küsimusi hõlpsalt lahendada. Lisateabe saamiseks võite vaadata ka järgmisi artikleid -
- Java vs Node JS erinevuste lihtsustamiseks
- Mongo andmebaasi intervjuu küsimused | Kasulik ja enim küsitud
- 15 kõige edukamat R-intervjuu küsimust ja vastust
- Perli intervjuu küsimused ja vastused
- SASi süsteemiintervjuu küsimused - kümme parimat küsimust