Ülevaade sädemekomponentidest

Kujutage ette, et teil on käepärast 1000 ülesannet ja kõigi nende lõpuleviimiseks on väga vähe aega. Keegi pakub teile abi, pakkudes ressursse, kes saavad mõned toimingud teie käest ära võtta ja neid teiega paralleelselt teha, nii et kõik ülesanded täidetakse õigeaegselt. See, et keegi on teie jaoks Spark arvuti mõttes. Apache Spark on avatud lähtekoodiga ja hajutatud klastri arvutamisraamistik suurandmete jaoks ning pakub optimeeritud lähenemisviisi suurte andmekogumite analüüsi teostamiseks. See töötab 100 korda kiiremini kui Hadoop ja pakub erinevaid teeke erinevatel eesmärkidel, näiteks SQL-i toimingute, ML-i, voogesituse, graafiku töötlemise jne jaoks. Allpool näeme üksikasjalikult sädeme erinevaid komponente.

Sädeme peamised komponendid

Praegu on Spark Ökosüsteemis 6 komponenti, mis on Spark Core, Spark SQL, Spark Streaming, Spark MLlib, Spark GraphX ​​ja SparkR. Vaatame, mida need komponendid teevad.

1. Sädeme südamik

Spark Core on, nagu nimigi ütleb, Spark-protsessi põhiosa. See hoolitseb ülesannete kavandamise, rikete taastamise, mäluhalduse ja sisend-väljundtoimingute jms eest. Mõelge sellele kui millelegi, mis sarnaneb protsessoriga arvutile. See toetab programmeerimiskeeli nagu Java, Scala, Python ja R ning pakub vastavate keelte API-sid, mille abil saate luua oma ETL-i töö või analüüsida. Kõigil teistel Sparki komponentidel on oma API-d, mis on üles ehitatud Spark Core'i peale. Paralleelsete töötlemisvõimaluste ja mälusisese arvutamise tõttu saab Spark hakkama igasuguse töökoormusega.

Spark Core-l on spetsiaalne andmestruktuur nimega RDD (Resilient Distributed Dataset), mis levitab andmeid klastri kõigis sõlmedes. RDD-d töötavad laiska hindamise paradigma juures, kus arvutamine jäetakse meelde ja seda teostatakse ainult siis, kui see on vajalik. See aitab protsessi optimeerida, arvutades ainult vajalikud objektid.

2. Spark SQL

Kui olete andmebaasidega töötanud, saate aru SQL tähtsusest. Kas poleks ülimalt valdav, kui sama SQL-kood toimiks isegi suurema andmestiku korral N korda kiiremini? Spark SQL aitab teil Sparki andmetega SQL-i abil manipuleerida. See toetab JDBC ja ODBC ühendusi, mis loovad seose Java objektide ja olemasolevate andmebaaside, andmeladude ja äriintellekti tööriistade vahel. Spark sisaldab midagi, mida nimetatakse andmeraamideks, mis on andmete struktureeritud kogumik veergude ja ridade kujul.

Spark võimaldab teil selle andmetega SQL-i töötada. Andmeraamid on võrdväärsed relatsioonitabelitega ja neid saab luua mis tahes välistest andmebaasidest, struktureeritud failidest või juba olemasolevatest RDDdest. Andmeraamidel on kõik RDD funktsioonid, näiteks muutumatud, vastupidavad, mälus, kuid lisafunktsioon on struktureeritud ja hõlpsasti töödeldav. Dataframe API on saadaval ka versioonides Scala, Python, R ja Java.

3. Sädeme voogesitus

Andmevoogesitus on tehnika, kus töödeldakse pidevat reaalajas andmete voogu. See nõuab raamistikku, mis pakub analüüside jaoks madalat latentsusaega. Spark Streaming tagab selle ja ka suure läbilaskevõime, tõrketaluvuse ja skaleeritavuse API-le andmete töötlemiseks reaalajas. See võetakse kokku diskreteeritud voo (DStream) kaudu, mis kujutab väikeste partiidena jagatud andmevoogu. DStream on üles ehitatud RDD-le, muutes Sparki voogesituse sujuvaks muude sädemekomponentidega. Mõned Sparki silmapaistvamad kasutajad.

Voogesitus on Netflix, Pinterest ja Uber. Spark Streaming saab integreerida Apache Kafkaga, mis on sisendvoogude eraldamise ja puhverdamise platvorm. Kafka toimib reaalajas voogude keskpunktina, mida töödeldakse sädeme voogesituse algoritmide abil.

4. Säde MLLib

Sparki peamine atraktsioon on arvutuse massiline suurendamine ja see funktsioon on kõigi masinõppeprojektide kõige olulisem nõue. Spark MLLib on Sparki masinõppe komponent, mis sisaldab masinõppe algoritme nagu klassifitseerimine, regressioon, rühmitamine ja koostööfiltreerimine. See pakub ka kohta funktsioonide eraldamiseks, mõõtmete vähendamiseks, teisendamiseks jne.

Samuti saate oma mudeleid salvestada ja suuremates andmekogumites käitada, ilma et peaksite muretsema suuruseprobleemide pärast. See sisaldab ka lineaarse algebrani, statistika ja andmete käsitlemise utiliite. Tänu Sparki mälustöötlusele, tõrketaluvusele, mastaapsusele ja programmeerimise lihtsusele saate selle teegi abil hõlpsalt iteratiivseid ML-algoritme käivitada.

5. GraphX

Graafilise analüüsi eesmärk on põhimõtteliselt määrata graafil olevate objektide vahelised seosed, näiteks kahe punkti vaheline lühim vahemaa. See aitab marsruudi optimeerimist. Spark GraphX ​​API aitab graafiku ja graafi paralleelsel arvutamisel. See lihtsustab graafiliste analüüside tegemist ning muudab selle kiiremaks ja usaldusväärsemaks. Graafianalüütika üks peamisi ja tuntud rakendusi on Google Maps.

See selgitab välja kauguse kahe asukoha vahel ja annab optimaalse marsruudi soovituse. Teine näide võib olla Facebooki sõbra soovitused. GraphX ​​töötab nii graafikute kui ka arvutustega. Spark pakub mitmesuguseid graafikalgoritme, näiteks lehejärk, ühendatud komponendid, siltide levik, SVD ++, tugevalt ühendatud komponendid ja kolmnurkade arv.

6. SparkR

R on kõige laialdasemalt kasutatav statistikakeel, mis hõlmab enam kui 10 000 eri otstarbeks mõeldud paketti. See kasutas andmeraamide API-t, mis muudab selle töötamise mugavaks, ning pakub ka teadlaste jaoks võimsaid visuaale nende andmete põhjalikuks analüüsimiseks. Kuid R ei toeta paralleelset töötlemist ja on piiratud ühe masinaga saadaoleva mälumahuga. See on koht, kus SparkR satub pildile.

Spark töötas välja SparkR-i nime all tuntud paketi, mis lahendab R-i mastaapsuse küsimuse. See põhineb hajutatud andmeraamidel ja pakub ka sama süntaksi kui R. Sparki hajutatud töötlemismootor ja R-i võrratu interaktiivsus, paketid, visualiseerimine ühendavad koos, et anda andmeteadlastele mida nad tahavad oma analüüse.

Järeldus

Kuna Spark on üldotstarbeline raamistik, on see paljudes rakendustes. Sparkit kasutatakse selle jõudluse ja töökindluse tõttu laialdaselt enamikus suurandmerakendustes. Kõiki neid Sparki komponente värskendatakse uues versioonis uute funktsioonidega ja see muudab meie elu lihtsamaks.

Soovitatavad artiklid

See on sädemekomponentide juhend. Siin käsitleme sädeme ülevaadet ja 6 parimat komponenti koos üksikasjaliku selgitusega. Lisateabe saamiseks võite vaadata ka järgmisi artikleid -

  1. 5 parimat olulist tarude alternatiivi
  2. Talend Open Studio komponendid / tööriistad
  3. IoT ökosüsteemi 6 parimat komponenti
  4. Mis on Talendi andmete integreerimine eelistega?

Kategooria: