Apache Sparki arhitektuur

Sissejuhatus Apache Spark arhitektuuri

See artikkel määratleb Apache Spark Architecture ja selle komponentide mõisted. Seda peetakse Apache Software Foundationi tipptasemel andmetöötluseks. Sädet peetakse lõpuks veel üheks võimaluseks Hadoopi ja kaardi vähendamiseks.

Spark on avatud lähtekoodiga arhitektuur, millel on täpselt määratletud komponendid, mis aitavad analüüsida suurt hulka andmeid ja töötab hajutatud arvutustehnika jaoks. Spark on kirjutatud Scalas lubatud funktsioonidega (nt API-d, R) ja rikastatud raamatukogude komplektiga, mis muudab andmetöötluse hõlpsamaks. Apache Sparkil on kiiremaks juurdepääsetavuseks oma individuaalne klastriarvutus ja see käivitatakse erinevatel platvormidel.

Apache Sparkil on lai valik funktsioone, näiteks kiirem mäluprotsesside kiirendamine, kohandamine mitmeks programmeerimiskeeleks, täiustatud vahemälutehnikad ja SQL-päringute toetamine, masinõpe. See töötab platvormidel nagu Microsoft Windows ja Linux opsüsteemid. Nende juurutamine ütleb, et nad võivad töötada ka ühe masina ja klastri režiimis.

Apache sädeme arhitektuuril on lõdvalt ühendatud komponendid. Spark kaalub kapteni / töötaja protsessi arhitektuuris ja kõik ülesanded toimivad Hadoopi hajutatud failisüsteemi ülaosas. Apache säde kasutab andmetöötluse ja andmete salvestamise protsesside jaoks Hadoopi. Neid peetakse mälus olevaks andmetöötlusmootoriks ja nende rakendused töötavad Hadoopi klastrites kiiremini kui mälu. Mälusisene töötlemine hoiab ära ketta I / O tõrke. Spark võimaldab heterogeensel tööl töötada samade andmetega. Spark jagab oma andmed partitsioonideks, jagatud partitsioonide suurus sõltub antud andmeallikast.

Allpool on toodud kaks Apache Spark Architecture peamist rakendust:

1. Elastsed hajutatud andmekogumid (RDD)

See vastutab vahemälu ja sektsioonide eraldamise juhtimise API pakkumise eest. See on oluline andmete arvutamise tööriistakomplekt. See aitab tõrgete korral elementide uuesti arvutamisel ning seda peetakse muutumatuteks andmeteks ja toimib liidesena. Teisendused ja toimingud on RDD kaks toimingut.

2. Suunatud tsükliline graafik (DAG)

See moodustab jadaühenduse ühest sõlmest teise. Draiver teisendab programmi DAG-ks iga töö jaoks. Apache Sparki ökosüsteemil on mitmesuguseid komponente nagu API tuum, Spark SQL, voogesitus ja reaalajas töötlemine, MLIB ja Graph X. Mõned siin õpitavad terminoloogiad on Spark shell, mis aitab lugeda suuri andmemahtusid, Spark konteksti - tühista, käivita töö, töö (töö), töö (arvutamine)

Apache Spark Architecture komponendid

Sparki neli peamist komponenti on toodud allpool ja kogu raamistiku jaoks on vaja neid mõista.

Sädemejuht
Täitjad
Klastri juhataja
Töölisõlmed

Järgmisel skeemil on toodud sädeme arhitektuur ja komponendid:

Joonis: Apache Spark Architecture eraldiseisev režiim

Täitmise voog algab järgmiselt:

1. Sädemejuht

Juhi kohustus on töö ja juhtimise koordineerimine. See on rakenduse JVM protsess ja seda peetakse peasõlmeks. Juht jagab klastrites olevate täitjate jaoks säde tööülesanneteks ja ajakavadeks. Diagrammil käivitavad draiveriprogrammid põhirakenduse ja loovad sädekonteksti (toimib lüüsina), jälgides kollektiivselt antud klastris töötamist ja ühendades Spark-klastriga. Kõik funktsioonid ja käsud tehakse sädekonteksti kaudu.

Spark-kontekst on iga seansi kirje. Spark-draiveril on klastrites töö tegemiseks rohkem komponente. Spark-klastrid ühendatakse erinevat tüüpi klastrihalduritega ja samal ajal hangitakse kontekstis töötajate sõlmede andmeid andmete täitmiseks ja säilitamiseks. Protsessi käivitamisel jaotatakse klastris nende töö etappideks ja võimendamise etapid plaanitud toiminguteks.

2. Teostaja

See vastutab töö täitmise eest ja salvestab vahemällu andmeid. Juba algstaadiumis registreerivad juhid autojuhtide juures. Sellel täituril on rakenduse samaaegseks käivitamiseks mitu ajapilu. Teostajad viivad väliste allikate lugemis- ja kirjutamisprotsessi läbi. Täitur käivitab töö siis, kui see on andmeid laadinud ja need on ooterežiimis eemaldatud. Täitur on lubatud dünaamilise jaotuse abil ja nad on sõltuvalt kestusest pidevalt kaasatud ja välistatud. Ülesannete täitmise ajal jälgib täitjaid draiveriprogramm. Täitjad täidavad java protsessis kasutajate ülesandeid.

3. Klastrihaldur

See aitab klastrite haldamisel, millel on üks ülem ja arv alluvaid. On kahte tüüpi klastrihaldureid, näiteks YARN ja eraldiseisvaid, neid haldavad ressursside haldur ja sõlme. klastri töö eraldiseisvana nõuab rollideks Spark Masterit ja töötaja sõlme. Klastrijuhi ülesandeks on ressursside eraldamine ja ülesande täitmine,

4. Töölisõlmed

Nad on orjasõlmed; peamine vastutus on ülesannete täitmine ja nende väljund tagastatakse sädeme konteksti. Nad suhtlevad peasõlmega ressursside saadavuse kohta. Spark-kontekst täidab selle ja väljastab töötaja sõlmedele. Igal töötaja sõlmel on jälgimiseks määratud üks sädemetöötaja. Nad teevad arvutamise väga lihtsalt, suurendades töötajate sõlme (töötajate arv 1 kuni n), nii et kõik toimingud viiakse läbi paralleelselt, jagades töö mitme süsteemi vaheseinteks. Teist elemendiülesannet peetakse tööühikuks ja määratakse ühele täitjale, iga partitsiooni säde käivitab ühe ülesande.

Järeldus

Seetõttu tähendab Apache Sparki arhitektuuri mõistmine, kuidas suurandmeid hõlpsasti rakendada. Lõppkokkuvõttes oleme õppinud nende juurdepääsetavust ja nende komponente, mis on klastrite arvutamise ja suurandmete tehnoloogia jaoks väga kasulik. Sädeme abil saate soovitud tulemusi lihtsamini arvutada ja partiide töötlemisel eelistada.

Sparki iseloomulikud omadused, näiteks andmestikud ja andmeraamid, aitavad kasutajate koodi optimeerida. Oluline funktsioon nagu SQL-mootor edendab täitmise kiirust ja muudab selle tarkvara mitmekülgseks. Seetõttu oleme näinud, et säderakendused töötavad lokaalselt või jaotunud klastrisse. Apache Sparkit peetakse suurepäraseks täienduseks paljudes tööstusharudes, näiteks suurandmetes. Kokkuvõtteks võib öelda, et säde aitab lahendada arvutuslikke ülesandeid.

Soovitatavad artiklid

See on juhend Apache Sparki arhitektuurist. Siin käsitleme Apache Sparki arhitektuuri sissejuhatust koos komponentidega ja Apache Sparki plokkskeemi. Lisateavet leiate ka meie muudest soovitatud artiklitest -

Spark Shelli käsud
Apache Hadoopi ökosüsteem
Suurandmete arhitektuur
Mis on Apache

Apache Sparki arhitektuur - Arhitektuuriskeem ja 4 komponenti

Lang L: none (table-of-contents):

Sissejuhatus Apache Spark arhitektuuri