Installige Spark - Sädeme paigaldamise täielik juhend

Kuidas installida säde?

Spark on avatud lähtekoodiga raamistik analüüsirakenduste käitamiseks. See on andmetöötlusmootor, mida hostitakse müüjast sõltumatus Apache Software Foundationis ja mis töötab suurte andmekogumite või suurte andmetega. See on üldotstarbeline klastrite arvutisüsteem, mis pakub kõrgetasemelisi API-sid Scalas, Pythonis, Javas ja R. See töötati välja Hadoopi MapReduce'i paradigma piirangute ületamiseks. Andmeteadlaste arvates täidab Spark 100 korda kiiremini kui MapReduce, kuna see võib vahemällu andmeid vahemällu salvestada, samas kui MapReduce töötab rohkem ketastele lugedes ja kirjutades. See töötab mälu sees, mis muudab selle võimsamaks ja kiiremaks.

Sparkil pole oma failisüsteemi. See töötleb andmeid erinevatest andmeallikatest nagu Hadoopi hajutatud failisüsteem (HDFS), Amazoni S3 süsteem, Apache Cassandra, MongoDB, Alluxio, Apache Hive. Seda saab kasutada Hadoop YARN (Yet Another Resource Negotiator), Mesos, EC2, Kubernetes või eraldiseisvat klastrirežiimi kasutades. See kasutab RDD-sid (Resilient Distributed Dataset), et delegeerida töökoormused üksikutele sõlmedele, mis toetavad iteratiivseid rakendusi. RDD tõttu on programmeerimine Hadoopiga võrreldes lihtne.

Spark koosneb erinevatest komponentidest, mida nimetatakse sädeme ökosüsteemi komponentideks.

Spark Core: see on Sparki rakenduse alus, millest muud komponendid otseselt sõltuvad. See pakub platvormi väga erinevateks rakendusteks, näiteks ajastamiseks, hajutatud toimingute saatmiseks, mälu töötlemiseks ja andmete viitamiseks.
Sädevoog: see komponent töötab reaalajas analüütiliste andmete pakkumisel reaalajas voogesituse andmetega. Aktiivsed andmed tarbitakse diskreetseteks ühikuteks, mida nimetatakse partiideks ja mis teostatakse Spark Core'is.
Spark SQL: see komponent töötab Sparki südamiku peal SQL päringute käitamiseks struktureeritud või poolstruktureeritud andmetega. Andmeraam on viis, kuidas suhelda Spark SQL-iga.
GraphX: graafiku arvutusmootor või raamistik võimaldab graafiku andmeid töödelda. See pakub Sparkil töötamiseks erinevaid graafikute algoritme.
MLlib: see sisaldab masinõppe algoritme, mis pakuvad masinõppe raamistikku mälupõhises hajutatud keskkonnas. Mälusisese andmetöötlusvõime tõttu täidab see efektiivselt iteratiivseid algoritme.
SparkR: Spark pakub R-paketti andmekogumite käitamiseks või analüüsimiseks R-kesta abil.

Süsteemide sädeme installimiseks või juurutamiseks on kolm viisi:

Eraldiseisev režiim Apache Sparkis
Hadoop-lõng / Mesos
SIMR (säde MapReduce'is)

Vaatame juurutamist iseseisvas režiimis.

Sädeme eraldiseisev juurutusrežiim:

1. samm: värskendage paketi indeksit

See on vajalik kõigi teie masinas olevate pakettide värskendamiseks.

Kasutage käsku : $ sudo apt-get update

2. samm: Java arenduskomplekti (JDK) installimine

See installib JDK teie arvutisse ja aitab teil Java-rakendusi käivitada.

3. samm: kontrollige, kas Java on õigesti installitud

Java on Apache Sparki rakenduste kasutamise või käitamise eeltingimus.

Kasutage käsku : $ java –version

See ekraanipilt näitab Java-versiooni ja tagab Java olemasolu masinas.

4. samm: installige Scala oma arvutisse

Kuna säde on kirjutatud skalalasse, peab masinas sädeme käivitamiseks olema installitud skaala.

Kasutage käsku: $ sudo apt-get install scala

5. samm: kontrollige, kas Scala on õigesti installitud

See tagab skaala eduka installimise teie süsteemi.

Kasutage käsku : $ scala –version

6. samm: laadige alla Apache Spark

Laadige alla Apache Spark vastavalt oma Hadoopi versioonile aadressilt https://spark.apache.org/downloads.html

Kui lähete ülaltoodud lingile, kuvatakse aken.

7. samm: valige sobiv versioon vastavalt Hadoopi versioonile ja klõpsake märgitud linki.

Ilmub veel üks aken.

8. samm: klõpsake märgitud linki ja Apache säde laaditakse teie süsteemi alla.

Kontrollige, kas .tar.gz- fail on allalaaditavate failide kaustas saadaval.

9. samm: installige Apache Spark

Sparki installimiseks tuleb tõrvafail kaevandada.

Kasutage käsku: $ tar xvf spark- 2.4.0-bin-hadoop2.7.tgz

Peate muutma käsus mainitud versiooni vastavalt allalaaditud versioonile. Selles oleme alla laadinud spark-2.4.0-bin-hadoop2.7 versiooni.

10. samm: Apache Sparki keskkonnamuutuja seadistamine

Kasutage käsku: $ source ~ / .bashrc

Lisa rida : eksport PATH = $ PATH: / usr / local / säde / prügikast

11. samm: kontrollige Apache Sparki installimist

Kasutage käsku : $ spark-shell

Kui installimine õnnestus, toodetakse järgmine väljund.

See tähendab Apache Sparki edukat installimist teie arvutisse ja Apache Spark käivitatakse Scalas.

Sparki juurutamine Hadoopi lõngale:

Apache Sparki installimiseks Hadoopi lõngale on kaks režiimi.

Klastrirežiim: selles režiimis haldab klastri lõng JARN Spark draiverit, mis töötab rakenduse põhiprotsessis. Pärast rakenduse algatamist saab klient minna.
Kliendirežiim: selles režiimis taotleb ressursse YARN rakenduse ülem ja Spark draiver töötab kliendi protsessis.

Sparki rakenduse klastrirežiimis juurutamiseks kasutage käsku.

$spark-submit –master yarn –deploy –mode cluster mySparkApp.jar

Ülaltoodud käsk käivitab YARN-i kliendi programmi, mis käivitab vaikimisi rakenduse Masteri.

Spark-rakenduse juurutamiseks kliendirežiimis kasutage käsku:

$ spark-submit –master yarn –deploy –mode client mySparkApp.jar

Kliendi režiimis saate sädemekest käivitada, kasutades käsku:

$ spark-shell –master yarn –deploy-mode client

Nõuanded ja nipid sädeme installimise kasutamiseks:

Enne sädeme installimist veenduge, et Java on teie masinasse installitud.
Kui kasutate skala keelt, siis veenduge, et skaala on enne Apache Sparki kasutamist juba installitud.
Sparkis programmeerimiseks võite kasutada ka Scala asemel Pythoni, kuid see peab olema ka Scala jaoks eelnevalt installitud.
Apache Sparki saate käivitada ka Windowsis, kuid on soovitatav luua virtuaalne masin ja installida Ubuntu Oracle Virtual Boxi või VMWare Playeri abil .
Spark võib töötada ilma Hadoopita (st iseseisev režiim), kuid kui vaja on mitme sõlme seadistamist, on vaja ressursihaldureid, nagu YARN või Mesos.
YARNi kasutamise ajal ei ole Spark vaja installida kõigile kolmele sõlmele. Apache Spark peate installima ainult ühte sõlme.
YARN-i kasutamisel võite klastriga samas lokaalses võrgus kasutada kliendi režiimi, samas kui kaugel olete, võite kasutada klastri režiimi.

Soovitatavad artiklid - Spark Install

See on Sparki installimise juhend. Siin nägime, kuidas Apache Sparki iseseisvas režiimis ja ressursihalduri YARN-i juurutada ning ka Sparki sujuvaks installimiseks on toodud ka mõned näpunäited. Lisateabe saamiseks võite vaadata ka järgmist artiklit -

Kuidas Spark-käske kasutada?
Karjäär Sparkis - peate proovima
Splunk vs Spark erinevused
Spark Intervjuu küsimused ja vastused
Sädeme voogesituse eelised
Spark SQL-i liitumiste tüübid (näited)

Installige Spark - Sädeme paigaldamise täielik juhend

Lang L: none (table-of-contents):

Kuidas installida säde?

Spark koosneb erinevatest komponentidest, mida nimetatakse sädeme ökosüsteemi komponentideks.

Süsteemide sädeme installimiseks või juurutamiseks on kolm viisi:

Sädeme eraldiseisev juurutusrežiim:

1. samm: värskendage paketi indeksit

2. samm: Java arenduskomplekti (JDK) installimine

3. samm: kontrollige, kas Java on õigesti installitud

4. samm: installige Scala oma arvutisse

5. samm: kontrollige, kas Scala on õigesti installitud

6. samm: laadige alla Apache Spark

7. samm: valige sobiv versioon vastavalt Hadoopi versioonile ja klõpsake märgitud linki.

8. samm: klõpsake märgitud linki ja Apache säde laaditakse teie süsteemi alla.

9. samm: installige Apache Spark

10. samm: Apache Sparki keskkonnamuutuja seadistamine

11. samm: kontrollige Apache Sparki installimist

Sparki juurutamine Hadoopi lõngale:

Nõuanded ja nipid sädeme installimise kasutamiseks:

Soovitatavad artiklid - Spark Install

AutoCADi kasutusviisid - Põhikontseptsioonid AutoCAD-i kohta

Kasutab C # - 7 peamist põhjust, miks ja millal C # sobib

CSSi kasutusviisid - Miks peaksite kasutama järkjärgulist stiililehte (CSS)

Django kasutusviisid - Django kümme parimat kasutamist, mida peate õppima reaalses maailmas

Kaitse eemaldamine Excelis - Kuidas Exceli lehe kaitset kaitsta?

Kotlini funktsioonid - Kotlini funktsioonide tüübid koos nende näidetega

KNN algoritm - Sammud KNN-i algoritmi rakendamiseks Pythonis

14 asja, mis tapab teie tööviljakuse - edu CBA

Kotlin vs Swift - 5 kõige väärtuslikumat erinevust, mida peaksite teadma

Kotlin vs Scala - Kümme kõige kasulikumat erinevust, mida õppida

Sularaha ümberarvestustsükli valem - Kalkulaator (Exceli mall)

Sularahareservi suhe - CRR näited astmelise arvutamisega

Rahavoog tegevusvalemist Kalkulaator (Exceli mall)

Operatsioonide rahavoog - CFO suhte 3 parimat näidet

Cassandra päringu keel - Cassandra päringkeele eelised