Sädemete voogesitus - Põhjalik juhend sädemete voogesituse kohta

Lang L: none (table-of-contents):

Anonim

Sissejuhatus sädeme voogesitusse

Apache Sparki voogesitus on Apache Sparki üks põhilisi komponente, mis on andmete utiliidi töötlemine reaalajas ja mida kasutatakse andmete reaalajas voogesitamiseks, erinevalt tavapärastest Hadoopi pakkimistöödest, mida kasutati selle asemel pakkimistööde käivitamiseks andmete reaalajas voogesituse. See kasutab Spark-südamiku kiiret ajastamisvõimet kiire sädeme voogesituse analüüsi tegemiseks, mis hõlmab sisuliselt andmete sissevõtmist mikro- ja minikomplektidena RDD-teisenduste tegemiseks nendel andmekogudel konkreetsel aknaperioodil. Apache Sparki voogesitus on mõeldud tarbimiseks paljudest ülesvooludest, viies sellega lõpule torujuhtme, näiteks Apache Kafka, Flume, RabbitMQ, ZeroMQ, Kinesis, TCP / IP pistikupesad, Twitter jne. Spark 2-s saadaolevad struktureeritud andmekogumid. x + versioone kasutatakse struktureeritud voogesituse jaoks.

Kuidas sädevoog töötab?

  • Spark-voogesituse korral jagatakse andmevood fikseeritud partiideks, mida nimetatakse ka DStreams-ideks, mis on sisemiselt kindlaksmääratud tüüpi jada RDD-de arvule. Seetõttu töödeldakse RDD-sid Spark API abil ja tagastatud tulemused on seetõttu partiidena. Diskreteeritud voooperatsioonid, mis on kas oleklikud või kodakondsuseta muudatused, koosnevad ka väljundoperatsioonidest, sisend-DStream-toimingutest ja ka vastuvõtjatest. Need Dstreams on abstraktsiooni põhitase, mida pakub voogesitus Apache Spark, mis on Spark RDD-de pidev voog.
  • See pakub ka RDD-dega sarnaste Dstreamide puhul rikkekindluse võimalusi, kui andmete koopia on saadaval ja seetõttu saab mis tahes olekut uuesti arvutada või taastada algsesse olekusse, kasutades Sparki liini graafikut RDD-de komplekt. Siinkohal tuleb mõtiskleda selle üle, et dstreame kasutatakse põhitoimingute tõlkimiseks nende aluseks olevas RDD-komplektis. Need RDD-põhised teisendused teeb ja arvutab Spark Engine. Dstream-toiminguid kasutatakse põhitaseme andmiseks ja arendajale arendamise jaoks kõrge API taseme andmiseks.

Sädeme voogesituse eelised

On mitmeid põhjuseid, miks Sparki voogesituse kasutamine on eeliseks. Mõnda neist arutame siin postituses.

  1. Voo, partii ja interaktiivse töökoormuse ühendamine: andmestikke saab hõlpsasti integreerida ja kasutada mis tahes töömahuga, mida pidevates süsteemides polnud kunagi kerge teha, ja seepärast toimib see ühe mootorina.
  2. Analüütika kõrgtase, masinõpe ja SQL-päringud: keerukate töökoormustega töötamisel nõuab see alati pidevat õppimist ja ka värskendatud andmemudeleid. Parim osa selle Sparki komponendiga on see, et see saab hõlpsasti integreerida MLibi või mõne muu spetsiaalselt masinõppega seotud teeki.
  3. Kiire rike ja ka taastumine straggleri jaoks: rikete taastamine ja tõrketaluvus on üks peamisi funktsioone, mis Sparki voogesituses on saadaval.
  4. Koormuse tasakaalustamine: kitsaskohad tekivad süsteemide vahel sageli ebaühtlaste koormuste ja tasakaalustatuse tõttu ning seetõttu on üsna vajalik tasakaalustada koormus ühtlaselt, mida see Spark-komponent automaatselt käsitseb.
  5. Toimivus: tänu mälusisesele arvutustehnikale, mis kasutab sisemälu rohkem kui välist kõvaketast, on Sparki jõudlus teiste Hadoopi süsteemidega võrreldes väga hea ja tõhus.

Sädeme voogesituse toimingud

1) Muundustoimingud sädeme voogesituses: samamoodi teisendatakse andmed RDD-de komplektist ka siin - DStreams-i andmed - ja see pakub palju teisendusi, mis on tavalistes Spark-RDD-des saadaval. Mõned neist on:

  • Kaart (): Seda kasutatakse uue vooluvormi tagastamiseks, kui iga element on funktsiooni kaudu läbitud.
    Näiteks data.map (rida => (rida, rea arv))
  • flatMap (): See on sarnane kaardiga, kuid iga üksus on kaardistatud 0 või enama kaardistatud ühikuga.
    Näide, data.flatMap (read => read.split (”“))
  • filter (): seda kasutatakse uue vooluhulga tagastamiseks, tagastades kirjed, mis on meie kasutamiseks filtritud.
    Näide, filter (väärtus => väärtus == „säde”)
  • Liit (): seda kasutatakse uue vooluhulga tagastamiseks, mis koosneb sisendiga Dstreams ja muudest Dstreams ühendatud andmetest.
    Näide, Dstream1.union (Dstream2) .union (Dstream3)

2) oleku värskendamine võtmeoperatsiooni abil

See võimaldab teil säilitada suvalist olekut ka siis, kui ta seda pidevalt uue teabega värskendab. Teil tuleb määratleda suvalist tüüpi olek ja oleku värskendusfunktsioon, mis tähendab oleku täpsustamist eelmist olekut kasutades ja ka sisendvoo uute väärtuste kasutamist. Igas partiisüsteemis rakendab säde sama olekuvärskendusfunktsiooni kõigi levinud võtmete jaoks.

Näide:

def värskendusfunktsioon (NV, RC):

kui RC pole:

RC = 0

tagasisumma (NV, RC) #Nv on uued väärtused ja RC töötab

Järeldus

Sädevoog on üks tõhusamaid süsteeme tõelise voogesitustüüpi torustiku ehitamiseks ja seetõttu kasutatakse seda traditsiooniliste süsteemide ja meetodite kasutamisel kõigi probleemide lahendamiseks. Seetõttu on kõik arendajad, kes õpivad sädeme voogude komponendisse jõudma, asuma raamistiku kõige õiglasemasse punkti, mida saab kasutada kõigi arenguvajaduste rahuldamiseks. Seetõttu võime kindlalt öelda, et selle kasutamine suurendab tootlikkust ja tulemuslikkust projektides ja ettevõtetes, kes proovivad või ootavad suurandmete ökosüsteemi kasutamist. Loodetavasti teile meeldis meie artikkel. Olge kursis rohkemate selliste artiklitega.

Soovitatavad artiklid

See on sädemete voogesituse juhend. Siin käsitleme sädeme voogesituse sissejuhatust, kuidas see töötab koos eeliste ja näidetega. Võite vaadata ka meie teisi seotud artikleid -

  1. Mis on Hadoopi voogesitus?
  2. Sädeme käsud
  3. Juhised Sparki installimise kohta
  4. Erinevus Hadoop vs Spark
  5. Spark DataFrame | Eelised
  6. Sädeme 6 parimat komponenti