ETL-protsessi tutvustus

ETL on üks olulisi protsesse, mida Business Intelligence nõuab. Äriteave tugineb andmeladudes hoitavatele andmetele, millest genereeritakse palju analüüse ja aruandeid, mis aitab luua tõhusamaid strateegiaid ning viib taktikalise ja operatiivse mõistmiseni ning otsuste tegemiseni.

ETL viitab ekstraheerimise, teisendamise ja laadimise protsessile. See on omamoodi andmete integreerimise samm, kus erinevatest allikatest pärit andmed ekstraheeritakse ja saadetakse andmeladudesse. Andmed ekstraheeritakse erinevatest ressurssidest, mis kõigepealt teisendatakse, et teisendada need vastavalt ärinõuetele konkreetsesse vormingusse. Erinevad tööriistad, mis aitavad neid ülesandeid täita, on -

  • IBM DataStage
  • Abinitio
  • Informaatika
  • Tableau
  • Talend

ETL protsess

Kuidas see töötab?

ETL-protsess on 3-etapiline protsess, mis algab andmete ekstraheerimisega erinevatest andmeallikatest ja seejärel toimuvad lähteandmed mitmesuguste teisenduste abil, et muuta see andmelaos talletamiseks sobivaks ja laadida see vajalikes vormingus andmeladudesse ning teha see valmis analüüs.

1. samm: ekstraheerige

See samm viitab nõutavate andmete toomisele erinevatest allikatest, mis esinevad erinevates vormingutes, näiteks XML, Hadoopi failid, lamedad failid, JSON jne. Kaevandatud andmed salvestatakse lavastuspiirkonda, kus tehakse edasisi teisendusi. Seega kontrollitakse andmeid enne andmete ladudesse viimist põhjalikult, vastasel juhul on andmeladudes tehtud muudatuste ennistamine väljakutseks.

Enne andmete ekstraheerimist on vaja lähte- ja sihtkoha vahel korralikku andmekaarti, kuna ETL-protsess peab nende süsteemidelt andmete hankimisel suhtlema erinevate süsteemidega, näiteks Oracle, Hardware, Mainframe, reaalajasüsteemidega nagu ATM, Hadoop jne. .

Märkus. Kuid tuleb hoolitseda selle eest, et ekstraheerimise ajal neid süsteeme ei muudetaks.

Andmete kaevandamise strateegiad
  • Täielik ekstraheerimine: seda järgitakse siis, kui andmebaasidesse laaditakse terved andmed allikatest, mis näitavad, kas andmeladu asustatakse esimest korda või kui andmete väljavõtmiseks pole strateegiat koostatud.
  • Osaline väljavõtmine (koos värskendusteatisega): Seda strateegiat nimetatakse ka deltaks, kus kaevandatakse ainult muutuvad andmed ja värskendatakse andmelaod
  • Osaline kaevandamine (ilma värskendusteateta): see strateegia viitab konkreetsete nõutavate andmete väljavõtmisele allikatest vastavalt andmeladudes olevale koormusele, selle asemel et koguda andmeid.

2. samm: teisendage

See samm on ETL-i kõige olulisem samm. Selles etapis viiakse läbi palju teisendusi, et teha andmed andmeladudes laadimiseks valmis, rakendades allpool toodud teisendusi: -

A. Põhimuudatused: Neid muundusi rakendatakse igas stsenaariumis, kuna need on põhivajadus, laadides erinevatest allikatest kaevandatud andmeid andmeladudesse

  • Andmete puhastamine või rikastamine: see viitab soovimatute andmete puhastamisele lavastuspiirkonnast, et valesid andmeid ei laetaks andmeladudest.
  • Filtreerimine: siin filtreerime nõutavad andmed suure hulga olemasolevate andmete hulgast välja vastavalt ärinõuetele. Näiteks müügiaruannete koostamiseks on vaja ainult selle konkreetse aasta müügiaruandeid.
  • Konsolideerimine: kaevandatud andmed konsolideeritakse nõutavas vormingus enne andmete ladudesse laadimist.4.
  • Standardiseerimine: andmeväljad teisendatakse, et viia need samasse nõutavasse vormingusse, näiteks tuleb andmeväljal määrata kuupäev KK / PP / AAAA.

B. Täiustatud ümberkujundamine: Seda tüüpi ümberkujundamine on spetsiifiline ärinõuetele.

  • Liitumine: selle toimingu korral ühendatakse 2 või enama allika andmed t genereerimaks andmeid ainult soovitud veergudega, mille read on üksteisega seotud
  • Andmekünnise valideerimise kontroll: erinevates väljades olevad väärtused kontrollitakse, kas need on õiged või mitte, näiteks kas pangaandmete korral pole pangakonto number null.
  • Kasutage andmete ühendamiseks otsinguid: konkreetse teabe ekstraheerimiseks kasutatakse mitmesuguseid tavafaile või muid faile, tehes selle kaudu otsingutoimingu.
  • Mis tahes keeruka andmete valideerimise kasutamine: kehtivate andmete eraldamiseks ainult lähtekoodisüsteemidest rakendatakse paljusid keerukaid kinnitusi.
  • Arvutatud ja tuletatud väärtused: andmete teisendamiseks vajalikuks teabeks kasutatakse erinevaid arvutusi
  • Kopeerimine: lähtekoodisüsteemidest pärinevaid dubleeritud andmeid analüüsitakse ja eemaldatakse enne andmete ladudesse laadimist.
  • Võtme ümberstruktureerimine: aeglaselt muutuvate andmete hõivamiseks tuleb andmete vajalikus vormingus struktureerimiseks genereerida mitmesugused asendusvõtmed.

Märkus. MPP-massiivset paralleelset töötlemist kasutatakse mõnikord mõne põhitoimingu teostamiseks, näiteks peatuste piirkonnas andmete filtreerimine või puhastamine, et suure hulga andmeid kiiremini töödelda.

3. samm: laadige

See samm viitab muudetud andmete laadimisse andmelaosse, kust neid saab kasutada paljude analüütiliste otsuste genereerimiseks ja ka aruandluseks.

1. Esialgne laadimine: Seda tüüpi laadimine toimub andmete esmakordsel laadimisel andmeladudesse.

2. Lisanduv koormus: seda tüüpi koormus, mida tehakse andmelao perioodiliseks värskendamiseks lähtestussüsteemi andmetes toimuvate muudatustega.

3. Täielik värskendamine: seda tüüpi laadimine viitab olukorrale, kui tabeli täielikud andmed kustutatakse ja värskete andmetega laaditakse.

Seejärel võimaldab andmeladu OLAP- või OLTP-funktsioone.

ETL-protsessi puudused

  1. Andmete suurendamine - ETL-i tööriista abil on võimalik erinevatest allikatest andmeid koguda ja andmeladudesse suunata. Seega muutub andmete suurenemisega ETL-i tööriista ja andmeladudega töötamine tülikaks.
  2. Kohandamine - see viitab kiiretele ja tõhusatele lahendustele või vastustele allikasüsteemide loodud andmetele. Kuid ETL-i tööriista kasutamine siin aeglustab seda protsessi.
  3. Kallimad - andmelao kasutamine järjest suurema genereeritava andmemahu salvestamiseks on kõrge kulu, mida organisatsioon peab maksma.

Järeldus - ETL protsess

ETL-i tööriist koosneb ekstraheerimis-, teisendus- ja laadimisprotsessidest, kus see aitab genereerida teavet erinevatest allikasüsteemidest kogutud andmete põhjal. Allikasüsteemi andmed võivad olla mis tahes vormingus ja neid saab andmeladudesse laadida mis tahes soovitud vormingus, seega peab ETL-tööriist toetama ühenduvust kõigi nende vormingutüüpidega.

Soovitatavad artiklid

See on ETL-i protsessi juhend. Siin käsitleme sissejuhatust, kuidas see töötab ?, ETL-i tööriistu ja selle puudusi. Lisateavet leiate ka meie muudest soovitatud artiklitest -

  1. Informatica ETL tööriistad
  2. ETL-i testimisriistad
  3. Mis on ETL?
  4. Mis on ETL-testimine?

Kategooria: