Sissejuhatus AWS Data Pipeline'i

Andmed kasvavad iga päevaga hüppeliselt ja varasemaga võrreldes on neid raske hallata. Vajame tööriistu ja teenuseid oma andmete tõhusaks haldamiseks ja odavama hinnaga, seal tuleb meelde AWS-i andmetorustik. See ei seisne ainult andmete salvestamises, vaid peate andmeid analüüsima, töötlema ja teisendama soovitud kujul samasse kohta soovitud kujul. Seda kõike saab AWS Data Pipeline'i abil saavutada.

Andmete torujuhtme vajadus

Proovime aru saada andmejuhtme vajadusest näitega:

Näide nr 1

Meil on veebisait, mis kuvab pilte ja gifid kasutajaotsingute või filtrite põhjal. Meie põhifookus on sisu esitamisel. Saavutada on teatud eesmärgid, mis on järgmised: -

  • Sisu edastamise täiustamine: teenuse osutamine kasutajatele piisavalt tõhusalt ja kiiresti.
  • Halda rakendust tõhusalt: kasutajaandmete ja veebisaidi logide salvestamine hilisemaks analüütiliseks otstarbeks.
  • Parandage ettevõtet: salvestatud andmete ja analüütiliste andmete kasutamine muudab ettevõtte paremaks odavama hinnaga.

Näide 2

Eesmärkide saavutamiseks tuleb hoolitseda teatavate kitsaskohtade eest:

  • Suur andmemaht erinevates vormingutes ja erinevates kohtades, mis muudab andmete töötlemise, salvestamise ja migreerimise keerukaks ülesandeks.

Erinevad andmesalvestuse komponendid erinevat tüüpi andmete jaoks:

  • Võimalikud registreeritud kasutajate andmed reaalajas: Dynamo DB .
  • Võimalike kasutajate veebiserveri logid: Amazon S3 .
  • Demograafilised andmed ja sisselogimisandmed: Amazon RDS.
  • Andurite andmed ja kolmanda osapoole andmestik: Amazon S3.

Lahendused

  • Võimalik lahendus: näeme, et peame andmete töötlemiseks struktureerimatust analüüsiks struktureerituks erinevat tüüpi tööriistadega. Siin peame andmete salvestamiseks ja töödeldud andmete teisendamiseks, analüüsimiseks ja säilitamiseks kasutama erinevaid tööriistu. Pole kulutõhus lahendus.
  • Optimaalne lahendus: kasutage andmetöötlust, mis tegeleb töötlemise, visualiseerimise ja migreerimisega. Andmesideliin võib olla kasulik andmete migreerimisel erinevatest kohtadest, samuti andmete analüüsimisel ja töötlemisel teie nimel samas kohas.

Mis on AWS Data Pipeline?

AWS Data Pipeline on põhimõtteliselt Amazoni pakutav veebiteenus, mis aitab teil oma andmeid mastaapsel ja usaldusväärsel viisil ümber kujundada, töödelda ja analüüsida, samuti töödeldavaid andmeid S3, DynamoDb või teie kohapealses andmebaasis säilitada.

  • AWS Data Pipeline abil saate hõlpsasti juurde pääseda erinevatest allikatest pärinevatele andmetele.
  • Teisendage ja töödelge neid andmeid mõõtkavas.
  • Tõhusalt saate tulemusi üle kanda muudele teenustele, näiteks S3, DynamoDb tabel või kohapealne andmehoidla.

Data Pipeline'i põhikasutusnäide

  • Meil võiks olla veebisait, mis oleks juurutatud EC2 kaudu ja mis genereerib logisid iga päev.
  • Lihtsa igapäevase ülesande võiks kopeerida logifailid E2-st ja need S3-ämbrisse viia.
  • Iganädalane ülesanne võiks olla andmete töötlemine ja andmete analüüsi käivitamine Amazon EMR-i kaudu, et koguda kogutud andmete põhjal iganädalasi aruandeid.

Andmeanalüüsi käivitamine AWS Data Pipeline abil

  • Andmete kogumine erinevatest andmeallikatest nagu S3, Dynamodb, kohapealsed andmed, andurite andmed jne.
  • Nädalaaruannete genereerimiseks AWS EMR-i ümberkujundamine, töötlemine ja analüüsimine.
  • Iganädalane aruanne salvestati Redshift, S3 või kohapealsesse andmebaasi.

AWS Data Pipeline'i eelised

Allpool selgitatakse AWS Data Pipeline'i eeliseid:

  • Konsooli lohistamine on hõlpsasti arusaadav ja kasutatav.
  • Hajutatud ja usaldusväärne infrastruktuur: andmesidejuhtmed töötavad skaleeritavatel teenustel ja on usaldusväärsed, kui mõni viga või ülesanne ebaõnnestub, saab selle uuesti proovida.
  • Toetab ajakava koostamist ja vigade jälgimist: saate oma ülesandeid ajastada ja jälgida, mis ebaõnnestus ja õnnestus.
  • Levitatud: saab kasutada paralleelselt mitme masinaga või lineaarselt.
  • Täielik kontroll arvutusressursside, näiteks EC2, EMR klastrite üle.

AWS Data Pipeline komponendid

Allpool on AWS Data Pipeline'i komponendid:

1. Torustiku määratlus

Teisendage oma äriloogika AWS Data Pipeline'iks.

  • Andmesõlmed : sisaldab nime, asukohta, andmeallika vormingut, mis see võiks olla (S3, dünaamiline fail, kohapealne)
  • Tegevused : oma andmete teisaldamine, teisendamine või päringute tegemine.
  • Ajakava : planeerige oma igapäevaseid või iganädalasi tegevusi.
  • Eeltingimus : plaanija käivitamise tingimused kontrollivad andmete saadavust allikast.
  • Ressursid : arvutage ressursid EC2, EMR.
  • Toimingud : värskendus Data Pipeline'i kohta, teatiste saatmine, alarmi käivitamine.

2. Torustikud

Siin saate ajastada ja juhtida ülesandeid määratletud tegevuste teostamiseks.

  • Torujuhtme C komponendid : Torustiku komponendid on samad, mis torujuhtme määratluses.
  • Juhtumid: Ülesannete käitamisel kompileerib AWS kõik komponendid, et luua teatud käideldavad eksemplarid. Sellistel juhtumitel on kogu teave konkreetsete ülesannete kohta.
  • Katsed: Oleme juba arutanud, kui usaldusväärne on Data Pipeline oma kordusmehhanismidega. Siin saate määrata, mitu korda soovite ülesannet uuesti proovida, kui see ebaõnnestub.

3. Task Runner

Küsib või küsitleb AWS Data Pipeline'i ülesandeid ja täidab need ülesanded.

AWS Data Pipeline'i hinnakujundus

Allpool selgitatakse AWS Data torujuhtme hinnakujundust:

1. Vaba tasand

AWS-i tasuta kasutamise astme osana saate tasuta alustada AWS Data Pipeline'i kasutamist. Uued registreerunud kliendid saavad igal kuul tasuta soodustusi ühe aasta jooksul:

  • 3 AWS-iga madala sagedusega töötamise eeltingimused tasuta.
  • 5 AWS-ga madala sagedusega töötavad tegevused tasuta.

2. Madalsagedus

Madala sagedusega mõeldakse ühe korra päevas või vähem jooksmist. Data Pipeline järgib sama arveldamisstrateegiat kui teised AWS-i veebiteenused, st teie kasutamise eest võetakse arve. Arvele võetakse selle kohta, kui sageli teie ülesanded, tegevused ja eeltingimused iga päev jooksevad ja kus neid teostatakse (AWS või kohapealsed). Kõrgsageduslikke tegevusi on kavas korraldada rohkem kui üks kord päevas.

Näide: võime kavandada tegevuse igal tunnil käima ja veebisaidi logisid töötlema või see võib toimuda iga 12 tunni järel. Arvestades, et madala sagedusega tegevused on üks kord päevas või vähem, kui eeltingimused ei ole täidetud. Mitteaktiivsetel torujuhtmetel on olekud OFF, PENDING ja FINISHED.

3. AWS Data Pipeline'i hinnakujundus näidatud piirkonnas mõistlik

Piirkond nr 1: USA idaosa (N.Virginia), USA lääsosa (Oregon), Aasia ja Vaikse ookeani piirkond (Sydney), EL (Iirimaa)

KõrgsagedusMadalsagedus
AWS-iga töötavad tegevused või eeltingimused 1, 00 dollarit kuus 0, 06 dollarit kuus
Kohapealsed tegevused või eeltingimused 2, 50 dollarit kuus 1, 50 dollarit kuus
Mitteaktiivsed torustikud: 1, 00 dollarit kuus

2. piirkond: Aasia Vaikse ookeani piirkond (Tokyo)

KõrgsagedusMadalsagedus
AWS-iga töötavad tegevused või eeltingimused 0, 9524 dollarit kuus 0, 5715 dollarit kuus
Kohapealsed tegevused või eeltingimused 2, 338 dollarit kuus 1, 4286 dollarit kuus
Passiivsed torustikud: 0, 9524 dollarit kuus

Torustik, mille korral igapäevane töö, st AWS-i madalsageduslik tegevus andmete teisaldamiseks DynamoDB-tabelist Amazon S3-le, maksaks 0, 60 dollarit kuus. Kui lisada Amazon2 S3 andmetel põhineva aruande koostamiseks EC2, oleks torujuhtme kogumaksumus kuus 1, 20 dollarit. Kui teeme seda tegevust iga 6 tunni tagant, maksaks see 2, 00 dollarit kuus, sest siis oleks see kõrgsageduslik tegevus.

Järeldus

AWS Data Pipeline on väga mugav lahendus plahvatuslikult kasvavate andmete haldavamaks haldamiseks. See on väga usaldusväärne ja vastavalt teie kasutusele skaleeritav. Kõigi äriliste vajaduste jaoks, kus tegemist on suure andmemahuga, on AWS Data Pipeline väga hea valik kõigi meie ärieesmärkide saavutamiseks.

Soovitatavad artiklid

See on AWS-i andmejuhtme juhend. Siin arutleme andmetöötluse vajaduste üle, mis on AWS-i andmesüsteem, selle komponent ja hinnakujunduse üksikasjad. Lisateavet leiate ka meie muudest seotud artiklitest -

  1. AWS EBS
  2. AWS andmebaasid
  3. Mis on AWS EC2?
  4. Andmete visualiseerimise eelised
  5. AWS-i seitse parimat konkurenti funktsioonidega
  6. Siit saate teada Amazoni veebiteenuste funktsioonide loendit

Kategooria: