Sissejuhatus AWS EMR-i

AWS EMR pakub palju funktsioone, mis muudavad meie jaoks asja lihtsamaks, mõned tehnoloogiad on järgmised:

  1. Amazon EC2
  2. Amazon RDS
  3. Amazon S3
  4. Amazon CloudFront
  5. Amazoni automaatne skaleerimine
  6. Amazonase lambda
  7. Amazoni punanihk
  8. Amazoni elastne kaardiredaktor (EMR)

Üks peamisi AWS EMRi pakutavaid teenuseid ja me hakkame sellega tegelema, on Amazon EMR.

EMR, mida tavaliselt nimetatakse elastseks kaardivähenduseks, pakub lihtsat ja juurdepääsetavat viisi suuremate andmete töötlemiseks. Kujutage ette suurandmete stsenaariumi, kus meil on tohutul hulgal andmeid ja me teostame nende abil toimingute komplekti, ütleme näiteks, et töötab Map Reduce - üks peamisi probleeme, millega Bigdata rakendus silmitsi seisab, on programmi häälestamine, me on sageli keeruline meie programmi nii täpselt häälestada, et kogu eraldatud ressurss kuluks õigesti. Selle ülaltoodud häälestusteguri tõttu suureneb töötlemiseks kuluv aeg järk-järgult. Elastne kaart Vähendage teenuse Amazon poolt pakutavat teenust. See on veebiteenus, mis pakub raamistikku, mis haldab kõiki neid suuri andmete töötlemiseks vajalikke funktsioone tasuvalt, kiiresti ja turvaliselt. Alates klastrite loomisest kuni andmete levitamiseni erinevatel eksemplaridel on kõiki neid asju Amazon EMR-i abil hõlpsasti hallatav. Siin pakutavad teenused on tellitavad, mis tähendab, et saame numbreid kontrollida olemasolevate andmete põhjal, mis muudavad need kulutasuvaks ja skaleeritavaks.

AWS EMR-i kasutamise põhjused

Miks kasutada AMR-i, mis muudab selle teistest paremaks. Sageli seisame silmitsi väga põhiprobleemiga, kus me ei suuda kõiki klastri piires saadaolevaid ressursse ühelegi rakendusele eraldada, AMAZON EMR hoolitseb nende probleemide eest ning lähtudes andmete mahust ja rakenduse vajadusest eraldab vajaliku ressursi. Ka olemuselt elastsena saame seda vastavalt muuta. EMR-il on tohutu rakenduste tugi, olgu see Hadoop, Spark, HBase, mis hõlbustab andmetöötlust. See toetab mitmesuguseid ETL-i toiminguid kiiresti ja kulutõhusalt. Seda saab kasutada ka MLIB-i jaoks Sparkis. Selle sees saame läbi viia mitmesuguseid masinõppe algoritme. Olgu see siis Batch Data või reaalajas andmete voogesitus EMR on võimeline korraldama ja töötlema mõlemat tüüpi andmeid.

AWS EMR töö

Vaatame nüüd seda Amazoni EMR-klastri diagrammi ja proovime mõista, kuidas see tegelikult töötab:

Järgmine diagramm kujutab klastrite jaotust sisemises EMR-is. Vaatame seda üksikasjalikult:

1. Klastrid on Amazoni EMR-i arhitektuuri keskne komponent. Need on EC2 instantside kogum, mida nimetatakse sõlmedeks. Igal sõlmel on konkreetsed rollid klastris, mida nimetatakse sõlme tüübiks, ja nende rollide põhjal saame neid liigitada kolme tüüpi:

  • Meistrisõlm
  • Põhisõlm
  • Ülesande sõlm

2. Põhisõlm, nagu nimest järeldada võib, on klastri haldamise, komponentide käitamise ja töötlemiseks sõlmede vahel andmete jaotamise eest vastutav ülem. See lihtsalt jälgib, kas kõik on õigesti hallatud ja hästi töötav ning töötab ka rikke korral.

3. Põhisõlm vastutab ülesande käitamise ja andmete klastris HDFS-i salvestamise eest. Kõigi töötlemise osadega tegeleb põhisõlm ja andmed pärast töötlemist paigutatakse soovitud HDFS-i asukohta.

4. See, et ülesandesõlm on valikuline, saab ainult ülesande käitamiseks, see ei salvesta andmeid HDFS-i.

5. Pärast tööde esitamist on meil mitu meetodit tööde valmimise valimiseks. Alates klastri lõpetamisest pärast töö lõpetamist kuni pikaajaliseks klastriks, kasutades EMR-i konsooli ja CLI-d, on meil kõigi toimingute tegemise privileeg.

6. Saame töö otse EMR-is käivitada, ühendades selle peasõlmega olemasolevate liideste ja tööriistade kaudu, mis töötavad klastris otse.

7. Saame EMR-i abil oma andmeid ka erinevates etappides käitada, peame vaid esitama ühe või mitu tellitud sammu EMR-klastris. Andmeid säilitatakse failina ja töödeldakse järjestikku. Alustades sellest ootel olekust lõpetatud olekusse, saame töötlemise etappe jälgida ja leida vigu, mis ka toimuvad suvandis „Tühistamine ebaõnnestus”. Sellele on kõik need toimingud hõlpsasti leitavad.

8. Kui kõik esinemisjuhud on lõpetatud, saavutatakse klastri täielik olek.

AWS EMRi arhitektuur

EMR-i arhitektuur tutvustab ennast alates salvestusosast kuni rakenduse osani.

  • Esimene kiht tuleb koos salvestuskihiga, mis sisaldab erinevaid klastris kasutatavaid failisüsteeme. Olgu tegemist HDFS-ist EMRFS-i kohaliku failisüsteemiga - neid kõiki kasutatakse andmete säilitamiseks kogu rakenduse vältel. Vahetulemuste vahemällu salvestamine MapReduce'i töötlemise ajal on võimalik nende EMR-iga kaasasolevate tehnoloogiate abil.
  • Teise kihiga kaasneb klastri ressursside haldus, see kiht vastutab klastrite ja rakenduse sõlmede ressursside haldamise eest. Põhimõtteliselt on see abiks juhtimisriistadena, mis aitab andmeid ühtlaselt jaotada klastritesse ja korralikku haldamist. Vaikeressursside halduse tööriist, mida EMR kasutab, on JANN, mis tutvustati Apache Hadoop 2.0-s. See haldab keskselt mitme andmetöötlusraamistiku ressursse. See hoolitseb kogu klastri hästi käitamiseks vajaliku teabe eest, alates mäluhaldusest sõlmede tervisest ressursside jaotamiseni.
  • Kolmanda kihiga on kaasas andmetöötluse raamistik, see kiht vastutab andmete analüüsi ja töötlemise eest. EMR toetab palju raamistikke, millel on oluline roll paralleelsel ja tõhusal andmetöötlusel. Mõned raamistikud, mida see toetab ja millest me oleme teadlikud, on APACHE HADOOP, SPARK, SPARK STREAMING jne.
  • Neljas kiht on koos rakenduse ja selliste programmidega nagu HIVE, PIG, voogesituse raamatukogu, ML-algoritmid, mis on abiks suurte andmekogumite töötlemisel ja haldamisel.

AWS EMR eelised

Vaatame nüüd mõnda EMR-i kasutamise eelist:

  1. Kiire: kuna kõiki ressursse kasutatakse õigesti, on päringu töötlemise aeg suhteliselt kiirem kui teiste andmetöötlusriistade pilt.
  2. Hulgiandmete töötlemine: olge suurem, kui andmemaht on EMR võimeline töötlema tohutul hulgal andmeid rohke aja jooksul.
  3. Minimaalne andmekaotus : kuna andmeid jaotatakse klastrisse ja töödeldakse võrgus paralleelselt, on olemas minimaalne võimalus andmete kadumiseks ja hästi, töödeldud andmete täpsuse määr on parem.
  4. Tasuv: Olles kulutõhus, on see odavam kui ükski teine ​​saadaolev alternatiiv, mis muudab selle tugevaks kogu tööstuses. Kuna hinnakujundus on väiksem, võime mahutada suure hulga andmeid ja töödelda neid eelarve piires.
  5. AWS integreeritud: see on integreeritud kõigi AWS-i teenustega, mis teeb katuse all hõlpsa kättesaadavuse, nii et turvalisus, ladustamine, võrgustamine on kõik ühes kohas integreeritud.
  6. Turvalisus: sissetuleva ja väljamineva liikluse juhtimiseks on hämmastav turvarühm, samuti muudab IAM-i rollide kasutamine turvalisemaks, kuna tegemist on mitmesuguste lubadega, mis muudavad andmed turvaliseks.
  7. Jälgimine ja juurutamine: meil on olemas korralikud jälgimisriistad kõigi EMR-klastrites töötavate rakenduste jaoks, mis muudab selle läbipaistvaks ja analüüsi jaoks hõlpsaks. Samuti on sellel automaatse juurutamise funktsioon, kus rakendus konfigureeritakse ja juurutatakse automaatselt.

EMR-i kui teiste klastrite arvutusmeetodi parema valiku jaoks on palju rohkem eeliseid.

AWS EMR-i hinnakujundus

EMR pakub hämmastavat hinnakirja, mis meelitab arendajaid või turge selle poole. Kuna sellel on tellitav hinnakujundusfunktsioon, saame seda kasutada veidi üle tunni ja klastri sõlmede arvu järgi. Saame maksta sekunditasu iga sekundi eest, mida kasutame, vähemalt ühe minutiga. Samuti võime valida oma esinemisjuhud reserveeritud või kohapealseteks eksemplarideks, kohapeal säästes palju kulusid.

Arve kogusumma saame arvutada lihtsa kuukalkulaatori abil allolevalt lingilt: -

https://calculator.s3.amazonaws.com/index.html#s=EMR

Täpsema hinnakujunduse üksikasjade kohta leiate Amazoni allpool esitatud dokumendist: -

https://aws.amazon.com/emr/pricing/

Järeldus

Ülaltoodud artiklist nägime, kuidas saab EMR-i kasutada suurandmete õiglaseks töötlemiseks kõigi tavapäraselt kasutatavate ressurssidega.

EMR-i olemasolu lahendab meie andmetöötluse põhiprobleemi ja vähendab töötlemisaega palju, vähendades selle kulutasuvust, on seda lihtne ja mugav kasutada.

Soovitatav artikkel

See on olnud AWS EMRi juhend. Siin käsitleme AWS EMR-i sissejuhatust koos selle töö- ja arhitektuuriprotseduuridega ning ka eeliseid. Lisateavet leiate ka meie muudest soovitatud artiklitest -

  1. AWS-i alternatiivid
  2. AWS-i käsud
  3. AWS teenused
  4. AWS-i intervjuu küsimused
  5. AWS-i salvestusteenused
  6. AWS-i seitse parimat konkurenti
  7. Amazoni veebiteenuste funktsioonide loend

Kategooria: