Sissejuhatus sädemete käsklustesse

Apache Spark on Hadoopi peal üles ehitatud raamistik kiirete arvutuste jaoks. See laiendab MapReduce'i kontseptsiooni klastripõhises stsenaariumis, et ülesannet tõhusalt juhtida. Spark Command on kirjutatud Scalas.

Hadoopi saab Spark kasutada järgmistel viisidel (vt allpool):

Joonis 1

https://www.tutorialspoint.com/

  1. Eraldiseisev: säde, mis on otse Hadoopi peal. Spark-tööd töötavad paralleelselt Hadoopil ja Sparkil.
  2. Hadoop YARN: Spark töötab lõngal ilma eelinstalli.
  3. Spark MapReduce'is (SIMR): Spark MapReduce'is kasutatakse lisaks eraldiseisvale juurutamisele ka sädemistöö käivitamiseks. SIMR-i abil saab Sparki käivitada ja kasutada oma kesta ilma administratiivse juurdepääsuta.

Sädeme komponendid:

  1. Apache sädemetuum
  2. Spark SQL
  3. Sädeme voogesitus
  4. MLib
  5. GraphX

Elastsed hajutatud andmekogumid (RDD) loetakse Sparki käskude põhiliseks andmestruktuuriks. RDD on oma olemuselt muutumatu ja kirjutuskaitstud. Igasugused sädekäskluste arvutused tehakse ümberkujundamise ja RDD-de toimingute kaudu.

Joonis 2

Google'i pilt

Spark-kest pakub keskkonda, mille abil kasutajad saavad selle funktsioonidega suhelda. Spark-käskudel on palju erinevaid käske, mida saab kasutada interaktiivse kesta andmete töötlemiseks.

Põhilised sädekäsklused

Vaatame mõnda põhilisi Spark-käske, mis on toodud allpool: -

  1. Sparki kest käivitamiseks:

Joonis 3

  1. Loe faili kohalikust süsteemist:

Siin tähendab sc sädekonteksti. Arvestades, et “data.txt” asub kodukataloogis, loetakse seda niimoodi, muidu tuleb täpsustada täielik tee.

  1. Looge RDD paralleelsuse kaudu

NewData on RDD nüüd.

  1. Loendage RDD üksusi

  1. Koguge

See funktsioon tagastab kogu RDD sisu draiveriprogrammi. Sellest on abi silumisel kirjutamisprogrammi erinevatel etappidel.

  1. Loe esimesi 3 artiklit RDD-st

  1. Salvestage väljund / töödeldud andmed tekstifaili

Siin on väljundi kaust praegune tee.

Vahepealsed sädekäsklused

1. Filtreerige RDD-l

Loome uue RDD üksuste jaoks, mis sisaldavad jah.

Sõna „jah” filtreerimiseks tuleb olemasoleval RDD-l kutsuda ümberkujundamisfilter, mis loob uue üksuste loendiga uue RDD.

2. Keti töö

Siin toimisid filtri teisendused ja loendustoimingud koos. Seda nimetatakse aheloperatsiooniks.

3. Lugege esimest punkti RDD-st

4. Loendage RDD partitsioonid

Nagu me teame, on RDD valmistatud mitmest partitsioonist, tekib vajadus loendada nr. vaheseinte arv. Kuna see aitab Sparki käskudega töötamisel häälestada ja tõrkeotsingut teha.

Vaikimisi minimaalne nr. pf partitsioon on 2.

5. liitu

See funktsioon ühendab kahte tabelit (tabeli element on paaris), mis põhineb ühisel võtmel. Paaris RDD puhul on esimene element võti ja teine ​​element väärtus.

6. Vahemälu fail

Puhverdamine on optimeerimise tehnika. RDD vahemälu tähendab, et RDD jääb mällu ja kõik edaspidised arvutused tehakse mälus olevatele RDD-dele. See säästab ketta lugemisaega ja parandab jõudlust. Lühidalt, see vähendab andmetele juurdepääsu aega.

Andmeid ei salvestata vahemällu, kui töötate funktsioonist kõrgemal. Seda saab tõestada veebilehte külastades:

http: // localhost: 4040 / salvestusruum

RDD vahemällu salvestatakse, kui toiming on tehtud. Näiteks:

Püsib () veel üks funktsioon, mis töötab sarnaselt vahemälule (). Püsivus annab kasutajatele võimaluse argumendi esitamiseks, mis aitab andmeid vahemällu salvestada mällu, kettale või hajamälusse. Püsi ilma ühegi argumendita töötab samamoodi nagu vahemälu ().

Täpsemad sädekäsklused

Vaatame mõnda täpsemat Sparki käsku, mis on toodud allpool: -

  1. Saate edastada muutujat

Broadcast muutuja aitab programmeerijal hoida klastri iga masina ainsana vahemällu lugemist, selle asemel, et saata selle muutuja koopiat koos ülesannetega. See aitab vähendada sidekulusid.

Joonis 4

Google'i pilt

Lühidalt öeldes on levitatava muutuja kolm põhijoont:

  1. Muutumatu
  2. Mahub mällu
  3. Jaotatud klastrisse

  1. Akud

Akud on muutujad, mis lisatakse seotud toimingutele. Akusid on palju kasutada, näiteks loendurid, summad jne.

Koodis oleva akumulaatori nime võis näha ka Spark UI-s.

  1. Kaart

Kaardifunktsioon aitab RDD-l igal real itereeruda. Kaardil kasutatavat funktsiooni rakendatakse RDD igale elemendile.

Näiteks RDD (1, 2, 3, 4, 6) korral, kui rakendame „rdd.map (x => x + 2)”, saame tulemuse kujul (3, 4, 5, 6, 8).

  1. Lamekaart

Lamekaart töötab sarnaselt kaardiga, kuid kaart tagastab ainult ühe elemendi, samas kui lameplaan võib tagastada elementide loendi. Seega vajab lausete sõnadeks jagamine tasapinda.

  1. Ühenda

See funktsioon aitab vältida andmete segamist. Seda rakendatakse olemasolevas partitsioonis, nii et vähem andmeid segatakse. Nii saame piirata klastri sõlmede kasutamist.

Nõuanded ja nipid sädekäskluste kasutamiseks

Allpool on Spark-käskude erinevad näpunäited: -

  1. Spargi algajad võivad kasutada Spark-shell'i. Kuna Sparki käsklused on üles ehitatud Scalale, on Scala sädemekesta kasutamine kindlasti suurepärane. Siiski on saadaval ka pythoni sädeme kest, nii et ka midagi sellist saaks kasutada, kes on pythoniga hästi kursis.
  2. Spark shellil on klastri ressursside haldamiseks palju võimalusi. Allpool käsk aitab teid selles:

  1. Sparkis on pikkade andmekogumitega töötamine tavaline asi. Kuid halva sisendi korral lähevad asjad valesti. Alati on hea mõte halvad read maha visata, kasutades Sparki filtrifunktsiooni. Hea sisendikomplekt on suurepärane minek.
  2. Spark valib teie andmete jaoks hea sektsiooni. Kuid enne töö alustamist on alati hea tava vaheseintel silma peal hoida. Erinevate vaheseinte proovimine aitab teil oma töö paralleelsust saavutada.

Järeldus - sädeme käsud:

Spark-käsk on revolutsiooniline ja mitmekülgne suurandmete mootor, mis töötab nii pakkide töötlemisel, reaalajas töötlemisel, andmete vahemällu salvestamisel jne. Sparkil on rikkalik masinõppe raamatukogude komplekt, mis võimaldab andmeteadlastel ja analüütilistel organisatsioonidel luua tugevaid, interaktiivseid ja kiired rakendused.

Soovitatavad artiklid

See on Sparki käskude juhend. Siin oleme arutanud nii Spark-käskude kui ka täpsemate käskude ja mõnede Spark-käskude vahel. Lisateabe saamiseks võite vaadata ka järgmist artiklit -

  1. Adobe Photoshopi käsud
  2. Olulised VBA käsud
  3. Tableau käsud
  4. Petturileht SQL (käsud, tasuta näpunäited ja nipid)
  5. Spark SQL-i liitumiste tüübid (näited)
  6. Sädemekomponendid | Ülevaade ja 6 parimat komponenti

Kategooria: