Kuidas installida säde?
Spark on avatud lähtekoodiga raamistik analüüsirakenduste käitamiseks. See on andmetöötlusmootor, mida hostitakse müüjast sõltumatus Apache Software Foundationis ja mis töötab suurte andmekogumite või suurte andmetega. See on üldotstarbeline klastrite arvutisüsteem, mis pakub kõrgetasemelisi API-sid Scalas, Pythonis, Javas ja R. See töötati välja Hadoopi MapReduce'i paradigma piirangute ületamiseks. Andmeteadlaste arvates täidab Spark 100 korda kiiremini kui MapReduce, kuna see võib vahemällu andmeid vahemällu salvestada, samas kui MapReduce töötab rohkem ketastele lugedes ja kirjutades. See töötab mälu sees, mis muudab selle võimsamaks ja kiiremaks.
Sparkil pole oma failisüsteemi. See töötleb andmeid erinevatest andmeallikatest nagu Hadoopi hajutatud failisüsteem (HDFS), Amazoni S3 süsteem, Apache Cassandra, MongoDB, Alluxio, Apache Hive. Seda saab kasutada Hadoop YARN (Yet Another Resource Negotiator), Mesos, EC2, Kubernetes või eraldiseisvat klastrirežiimi kasutades. See kasutab RDD-sid (Resilient Distributed Dataset), et delegeerida töökoormused üksikutele sõlmedele, mis toetavad iteratiivseid rakendusi. RDD tõttu on programmeerimine Hadoopiga võrreldes lihtne.
Spark koosneb erinevatest komponentidest, mida nimetatakse sädeme ökosüsteemi komponentideks.
- Spark Core: see on Sparki rakenduse alus, millest muud komponendid otseselt sõltuvad. See pakub platvormi väga erinevateks rakendusteks, näiteks ajastamiseks, hajutatud toimingute saatmiseks, mälu töötlemiseks ja andmete viitamiseks.
- Sädevoog: see komponent töötab reaalajas analüütiliste andmete pakkumisel reaalajas voogesituse andmetega. Aktiivsed andmed tarbitakse diskreetseteks ühikuteks, mida nimetatakse partiideks ja mis teostatakse Spark Core'is.
- Spark SQL: see komponent töötab Sparki südamiku peal SQL päringute käitamiseks struktureeritud või poolstruktureeritud andmetega. Andmeraam on viis, kuidas suhelda Spark SQL-iga.
- GraphX: graafiku arvutusmootor või raamistik võimaldab graafiku andmeid töödelda. See pakub Sparkil töötamiseks erinevaid graafikute algoritme.
- MLlib: see sisaldab masinõppe algoritme, mis pakuvad masinõppe raamistikku mälupõhises hajutatud keskkonnas. Mälusisese andmetöötlusvõime tõttu täidab see efektiivselt iteratiivseid algoritme.
- SparkR: Spark pakub R-paketti andmekogumite käitamiseks või analüüsimiseks R-kesta abil.
Süsteemide sädeme installimiseks või juurutamiseks on kolm viisi:
- Eraldiseisev režiim Apache Sparkis
- Hadoop-lõng / Mesos
- SIMR (säde MapReduce'is)
Vaatame juurutamist iseseisvas režiimis.
Sädeme eraldiseisev juurutusrežiim:
1. samm: värskendage paketi indeksit
See on vajalik kõigi teie masinas olevate pakettide värskendamiseks.
Kasutage käsku : $ sudo apt-get update
2. samm: Java arenduskomplekti (JDK) installimine
See installib JDK teie arvutisse ja aitab teil Java-rakendusi käivitada.
3. samm: kontrollige, kas Java on õigesti installitud
Java on Apache Sparki rakenduste kasutamise või käitamise eeltingimus.
Kasutage käsku : $ java –version
See ekraanipilt näitab Java-versiooni ja tagab Java olemasolu masinas.
4. samm: installige Scala oma arvutisse
Kuna säde on kirjutatud skalalasse, peab masinas sädeme käivitamiseks olema installitud skaala.
Kasutage käsku: $ sudo apt-get install scala
5. samm: kontrollige, kas Scala on õigesti installitud
See tagab skaala eduka installimise teie süsteemi.
Kasutage käsku : $ scala –version
6. samm: laadige alla Apache Spark
Laadige alla Apache Spark vastavalt oma Hadoopi versioonile aadressilt https://spark.apache.org/downloads.html
Kui lähete ülaltoodud lingile, kuvatakse aken.
7. samm: valige sobiv versioon vastavalt Hadoopi versioonile ja klõpsake märgitud linki.
Ilmub veel üks aken.
8. samm: klõpsake märgitud linki ja Apache säde laaditakse teie süsteemi alla.
Kontrollige, kas .tar.gz- fail on allalaaditavate failide kaustas saadaval.
9. samm: installige Apache Spark
Sparki installimiseks tuleb tõrvafail kaevandada.
Kasutage käsku: $ tar xvf spark- 2.4.0-bin-hadoop2.7.tgz
Peate muutma käsus mainitud versiooni vastavalt allalaaditud versioonile. Selles oleme alla laadinud spark-2.4.0-bin-hadoop2.7 versiooni.
10. samm: Apache Sparki keskkonnamuutuja seadistamine
Kasutage käsku: $ source ~ / .bashrc
Lisa rida : eksport PATH = $ PATH: / usr / local / säde / prügikast
11. samm: kontrollige Apache Sparki installimist
Kasutage käsku : $ spark-shell
Kui installimine õnnestus, toodetakse järgmine väljund.
See tähendab Apache Sparki edukat installimist teie arvutisse ja Apache Spark käivitatakse Scalas.
Sparki juurutamine Hadoopi lõngale:
Apache Sparki installimiseks Hadoopi lõngale on kaks režiimi.
- Klastrirežiim: selles režiimis haldab klastri lõng JARN Spark draiverit, mis töötab rakenduse põhiprotsessis. Pärast rakenduse algatamist saab klient minna.
- Kliendirežiim: selles režiimis taotleb ressursse YARN rakenduse ülem ja Spark draiver töötab kliendi protsessis.
Sparki rakenduse klastrirežiimis juurutamiseks kasutage käsku.
$spark-submit –master yarn –deploy –mode cluster mySparkApp.jar
Ülaltoodud käsk käivitab YARN-i kliendi programmi, mis käivitab vaikimisi rakenduse Masteri.
Spark-rakenduse juurutamiseks kliendirežiimis kasutage käsku:
$ spark-submit –master yarn –deploy –mode client mySparkApp.jar
Kliendi režiimis saate sädemekest käivitada, kasutades käsku:
$ spark-shell –master yarn –deploy-mode client
Nõuanded ja nipid sädeme installimise kasutamiseks:
- Enne sädeme installimist veenduge, et Java on teie masinasse installitud.
- Kui kasutate skala keelt, siis veenduge, et skaala on enne Apache Sparki kasutamist juba installitud.
- Sparkis programmeerimiseks võite kasutada ka Scala asemel Pythoni, kuid see peab olema ka Scala jaoks eelnevalt installitud.
- Apache Sparki saate käivitada ka Windowsis, kuid on soovitatav luua virtuaalne masin ja installida Ubuntu Oracle Virtual Boxi või VMWare Playeri abil .
- Spark võib töötada ilma Hadoopita (st iseseisev režiim), kuid kui vaja on mitme sõlme seadistamist, on vaja ressursihaldureid, nagu YARN või Mesos.
- YARNi kasutamise ajal ei ole Spark vaja installida kõigile kolmele sõlmele. Apache Spark peate installima ainult ühte sõlme.
- YARN-i kasutamisel võite klastriga samas lokaalses võrgus kasutada kliendi režiimi, samas kui kaugel olete, võite kasutada klastri režiimi.
Soovitatavad artiklid - Spark Install
See on Sparki installimise juhend. Siin nägime, kuidas Apache Sparki iseseisvas režiimis ja ressursihalduri YARN-i juurutada ning ka Sparki sujuvaks installimiseks on toodud ka mõned näpunäited. Lisateabe saamiseks võite vaadata ka järgmist artiklit -
- Kuidas Spark-käske kasutada?
- Karjäär Sparkis - peate proovima
- Splunk vs Spark erinevused
- Spark Intervjuu küsimused ja vastused
- Sädeme voogesituse eelised
- Spark SQL-i liitumiste tüübid (näited)