Erinevused andmelao ja Hadoopi vahel
IT-tööstuses toimub igal kümnendil oluline uuendus, mis raputab kogu IT-tööstust. Viimastel aastatel on Apache Hadoop sama teinud, infundeerides andmekeskusi uue infrastruktuuriga
Programmeerijale paralleelse töötlemise võimsuse andmisega kasvab Hadoop sellise eksponentsiaalse tõusuga ja selle ökosüsteem laieneb nii sügavuses kui laiuses, on loomulik küsida, kas Hadoopi kavatseb traditsiooniline andmeladu asendada.
Vaatame, mida Alasdair Anderson (Nordea asepresident) ütles Hadoopi tippkohtumisel selle kuuma teema kohta linnas.
„Praegu ei ole EDW ja Hadoopi vahel mingit suhet - need hakkavad teineteist täiendama. See EI puuduta rippimist ja asendamist: me ei vabane RDBMS-ist ega MPP-st, vaid kasutame selle asemel õiget tööriista õigeks tööks - ja see sõltub suuresti hinnast. ”
Kui see huvitav arutelu algab, tuleb meile meelde palju küsimusi, näiteks:
1) Kui teil on suuri andmeid, kas vajate andmeladu?
2) Kas Hadoop asendab andmelao?
3) Kas see on traditsioonilise Data Warehouse'i ajastu surm?
Kõigile neile küsimustele vastuste teada saamiseks peame uurima selle pildi suuremat konteksti.
1. Mis on Hadoop?
Kes pole Big Datast viimasel ajal kuulnud? Kuna iga päev genereeritakse sadu terabaiti andmeid erinevatest allikatest, on selge, et tänapäeva moodne maailm on suurandmete maailm
Kui hakkate rääkima suurandmetest, hakkate varem või hiljem arutama suurandmete maailma kuumimat teemat: Hadoop - aga mis see täpselt on?
Hadoop on avatud lähtekoodiga Java-põhine programmeerimisraamistik, mis toetab äärmiselt suurte andmekogumite töötlemist ja säilitamist hajutatud arvutuskeskkonnas.
Hadoopi 4 moodulit -
Hadoop koosneb 4 moodulist -
- Hajutatud failisüsteem
Hajutatud failisüsteem võimaldab andmeid salvestada hõlpsasti juurdepääsetavas vormingus suurel arvul lingitud salvestusseadmetes.
- Kaart Vähenda
Map Reduce on kahe toimingu kombinatsioon - andmebaasi andmete lugemine ja analüüsimiseks sobivasse vormingusse (kaart) paigutamine ning matemaatiliste toimingute tegemine (vähendamine).
- Hadoop tavaline
Hadoop Common pakub tööriistu HDFS-is (Hadoopi hajutatud failisüsteem) salvestatud andmete jaoks
- Lõng
YARN haldab andmete salvestamiseks ja analüüsi käitamiseks kasutatavate süsteemide ressursse.
2. Mis on andmeladu?
Andmeladu on relatsiooniandmebaas, mis on loodud päringu- ja analüüsiandmete jaoks. Tavaliselt sisaldab see erinevatest allikatest pärinevaid ajaloolisi andmeid.
Andmelao keskkond sisaldab ETL-lahendusi, veebipõhist analüütilise töötlemise (OLAP) mootorit, kliendianalüüsi tööriistu ja muid rakendusi, mis haldavad andmete analüüsimise ja ärikasutajatele edastamise protsessi.
Võtame kokku, mis on andmeladu -
-
Teemakeskne
Andmeladu saab kasutada konkreetse valdkonna (nt müük, rahandus ja varud) analüüsimiseks. Iga teemavaldkond sisaldab üksikasjalikke andmeid.
-
Integreeritud
Andmeladu integreerib mitmest andmeallikast pärit andmed. Näiteks kuupäevad on samas vormingus, meeste / naiste koodid on ühtlased. Andmelaos on toote tuvastamiseks ainult üks viis ja nad kasutavad sama kliendikirjet, mitte koopiaid
-
Mittelenduvad
Andmeid hoitakse andmelaos muutmata kujul ja need ei muutu. Seega ei tohiks andmelao ajaloolisi andmeid kunagi muuta.
-
Ajavariant
andmelaost saab andmeid 3 kuu, 6 kuu, 12 kuu või isegi vanemate andmete kohta.
-
Pole virtuaalne
Andmeladu on füüsiline püsiv hoidla.
Andmeladu vs Hadoop (infograafika)
Allpool on toodud 6 parimat andmelao ja Hadoopi võrdlust
Andmeladu vs Hadoop - mida kasutada?
- Kui teil on puhtaid, järjepidevaid ja kvaliteetseid andmeid, peaksite minema Data Warehouse'i, kuna Hadoopil puudub mõnede lahenduste andmete kvaliteet.
- Kui teil on töötlemata struktureerimata andmeid, peaksite otsima Hadoopi, kuna Hadoop töötab hästi struktureerimata / töötlemata andmetega, kuid andmeladu töötab ainult struktureeritud andmetega.
- Madala latentsusaja ja interaktiivsete aruannete jaoks peaksite minema andmelaost
- OLTP / Reaalaja / Punktpäringute korral peaksite otsima Andmelao, kuna Hadoop töötab partiiandmetega hästi.
- Suuremahuliste andmekogumite korral peaksite otsima Hadoopi, kuna Hadoop on loodud suurte andmeprobleemide lahendamiseks.
Data Warehouse'i ja Hadoopi võrdlustabel "Head to Head"
Allpool on loetelu punktidest, mis kirjeldavad andmete lao ja Hadoopi võrdlusi
Võrdluse alus | Andmeladu | Hadoop |
Andmed | Andmelaos analüüsime struktureeritud ja töödeldud andmeid | Hadoopis saame töödelda igasuguseid andmeid, sealhulgas struktureeritud / struktureerimata / poolstruktureeritud ja töötlemata andmeid |
Töötlemine | Selle töötlemine põhineb skeemil kirjutamise kontseptsioonidel | Selle töötlemine põhineb loetud skeemidel |
Ladustamine | Sobib väikesemahuliste andmete jaoks ja suuremahuliste andmete jaoks on see liiga kallis | See töötab hästi suurte andmekogumitega, millel on tohutu maht, kiirus ja mitmekesisus |
Agility | See on vähem liikuv ja kindla konfiguratsiooniga | See on väga paindlik, seadistage ja konfigureerige vastavalt vajadusele |
Turvalisus | Andmelao tehnoloogiad on olnud olemas juba aastakümneid. Seega võime turvalisuse osas tugineda Data Warehouse'ile | Kuigi Hadoopi tehnoloogiad on võrreldes Data Warehouse'iga suhteliselt uued, on turvalisus siin suur mure |
Kasutajad | Ettevõttespetsialistid kasutavad tavaliselt andmeladu | Hadoop on üsna kuulus andmeteaduse ja andmetöötluse valdkonnas |
Järeldus - andmeladu vs Hadoop
Nüüd teame nii Data Warehouse'ist kui ka Hadoopist, vaatame tagasi ja uurime küsimust, mille esitasime selle Data Warehouse'i ja Hadoopi artikli alguses -
1) kui teil on suuri andmeid, kas vajate andmeladu?
Vastus - kui teie organisatsioon vajab usaldusväärseid, usutavaid ja juurdepääsetavaid andmeid, on teil vaja andmekogu.
2) Kas Hadoop asendab andmelao?
Vastus - andmelao ja Hadoopi võrdlemine on nagu õunte ja apelsinide võrdlemine. Neil nii Data Warehouse'il kui ka Hadoopil on erinevates kasutusjuhtumitestsenaariumides oma eelised. Mõnel juhul sõltume endiselt traditsioonilistest andmelao tehnikatest, kuid aja muutudes keskendume suurandmete probleemide lahendamiseks rohkem Hadoop Frameworkile.
3) Kas see on traditsioonilise Data Warehouse'i ajastu surm?
Vastus - nagu näete, pole see tegelikult lihtne küsimus ja seetõttu ei sobi see lihtsa vastuse saamiseks. On tõsi, et suurandmed muudavad lähiaastatel traditsioonilist andmete ladustamise lähenemisviisi, kuid see ei aeguta andmete ladustamise mõisteid ja tava.
Soovitatav artikkel
See on olnud kasulik juhend Data Warehouse vs Hadoop jaoks. Siin oleme arutanud nende tähenduse, pea võrdluse, võtme erinevuste ja järelduste üle. Lisateabe saamiseks võite vaadata ka järgmist artiklit -
- Hadoop vs Splunk - saate teada 7 parimat erinevust
- Hadoop vs Elasticsearch - kumb on kasulikum
- Big Data vs Data Warehouse - saate teada parimad erinevused
- Äriteave vs andmeladu
- Splunk vs Nagios