Andmeladu vs Hadoop - 6 olulist erinevust, mida teada

Lang L: none (table-of-contents):

Anonim

Erinevused andmelao ja Hadoopi vahel

IT-tööstuses toimub igal kümnendil oluline uuendus, mis raputab kogu IT-tööstust. Viimastel aastatel on Apache Hadoop sama teinud, infundeerides andmekeskusi uue infrastruktuuriga

Programmeerijale paralleelse töötlemise võimsuse andmisega kasvab Hadoop sellise eksponentsiaalse tõusuga ja selle ökosüsteem laieneb nii sügavuses kui laiuses, on loomulik küsida, kas Hadoopi kavatseb traditsiooniline andmeladu asendada.

Vaatame, mida Alasdair Anderson (Nordea asepresident) ütles Hadoopi tippkohtumisel selle kuuma teema kohta linnas.

„Praegu ei ole EDW ja Hadoopi vahel mingit suhet - need hakkavad teineteist täiendama. See EI puuduta rippimist ja asendamist: me ei vabane RDBMS-ist ega MPP-st, vaid kasutame selle asemel õiget tööriista õigeks tööks - ja see sõltub suuresti hinnast.

Kui see huvitav arutelu algab, tuleb meile meelde palju küsimusi, näiteks:

1) Kui teil on suuri andmeid, kas vajate andmeladu?

2) Kas Hadoop asendab andmelao?

3) Kas see on traditsioonilise Data Warehouse'i ajastu surm?

Kõigile neile küsimustele vastuste teada saamiseks peame uurima selle pildi suuremat konteksti.

1. Mis on Hadoop?

Kes pole Big Datast viimasel ajal kuulnud? Kuna iga päev genereeritakse sadu terabaiti andmeid erinevatest allikatest, on selge, et tänapäeva moodne maailm on suurandmete maailm

Kui hakkate rääkima suurandmetest, hakkate varem või hiljem arutama suurandmete maailma kuumimat teemat: Hadoop - aga mis see täpselt on?

Hadoop on avatud lähtekoodiga Java-põhine programmeerimisraamistik, mis toetab äärmiselt suurte andmekogumite töötlemist ja säilitamist hajutatud arvutuskeskkonnas.

Hadoopi 4 moodulit -

Hadoop koosneb 4 moodulist -

  1. Hajutatud failisüsteem

Hajutatud failisüsteem võimaldab andmeid salvestada hõlpsasti juurdepääsetavas vormingus suurel arvul lingitud salvestusseadmetes.

  1. Kaart Vähenda

Map Reduce on kahe toimingu kombinatsioon - andmebaasi andmete lugemine ja analüüsimiseks sobivasse vormingusse (kaart) paigutamine ning matemaatiliste toimingute tegemine (vähendamine).

  1. Hadoop tavaline

Hadoop Common pakub tööriistu HDFS-is (Hadoopi hajutatud failisüsteem) salvestatud andmete jaoks

  1. Lõng

YARN haldab andmete salvestamiseks ja analüüsi käitamiseks kasutatavate süsteemide ressursse.

2. Mis on andmeladu?

Andmeladu on relatsiooniandmebaas, mis on loodud päringu- ja analüüsiandmete jaoks. Tavaliselt sisaldab see erinevatest allikatest pärinevaid ajaloolisi andmeid.

Andmelao keskkond sisaldab ETL-lahendusi, veebipõhist analüütilise töötlemise (OLAP) mootorit, kliendianalüüsi tööriistu ja muid rakendusi, mis haldavad andmete analüüsimise ja ärikasutajatele edastamise protsessi.

Võtame kokku, mis on andmeladu -

  1. Teemakeskne

Andmeladu saab kasutada konkreetse valdkonna (nt müük, rahandus ja varud) analüüsimiseks. Iga teemavaldkond sisaldab üksikasjalikke andmeid.

  1. Integreeritud

Andmeladu integreerib mitmest andmeallikast pärit andmed. Näiteks kuupäevad on samas vormingus, meeste / naiste koodid on ühtlased. Andmelaos on toote tuvastamiseks ainult üks viis ja nad kasutavad sama kliendikirjet, mitte koopiaid

  1. Mittelenduvad

Andmeid hoitakse andmelaos muutmata kujul ja need ei muutu. Seega ei tohiks andmelao ajaloolisi andmeid kunagi muuta.

  1. Ajavariant

andmelaost saab andmeid 3 kuu, 6 kuu, 12 kuu või isegi vanemate andmete kohta.

  1. Pole virtuaalne

Andmeladu on füüsiline püsiv hoidla.

Andmeladu vs Hadoop (infograafika)

Allpool on toodud 6 parimat andmelao ja Hadoopi võrdlust

Andmeladu vs Hadoop - mida kasutada?

  • Kui teil on puhtaid, järjepidevaid ja kvaliteetseid andmeid, peaksite minema Data Warehouse'i, kuna Hadoopil puudub mõnede lahenduste andmete kvaliteet.
  • Kui teil on töötlemata struktureerimata andmeid, peaksite otsima Hadoopi, kuna Hadoop töötab hästi struktureerimata / töötlemata andmetega, kuid andmeladu töötab ainult struktureeritud andmetega.
  • Madala latentsusaja ja interaktiivsete aruannete jaoks peaksite minema andmelaost
  • OLTP / Reaalaja / Punktpäringute korral peaksite otsima Andmelao, kuna Hadoop töötab partiiandmetega hästi.
  • Suuremahuliste andmekogumite korral peaksite otsima Hadoopi, kuna Hadoop on loodud suurte andmeprobleemide lahendamiseks.

Data Warehouse'i ja Hadoopi võrdlustabel "Head to Head"

Allpool on loetelu punktidest, mis kirjeldavad andmete lao ja Hadoopi võrdlusi

Võrdluse alusAndmeladuHadoop
AndmedAndmelaos analüüsime struktureeritud ja töödeldud andmeidHadoopis saame töödelda igasuguseid andmeid, sealhulgas struktureeritud / struktureerimata / poolstruktureeritud ja töötlemata andmeid
TöötlemineSelle töötlemine põhineb skeemil kirjutamise kontseptsioonidelSelle töötlemine põhineb loetud skeemidel
LadustamineSobib väikesemahuliste andmete jaoks ja suuremahuliste andmete jaoks on see liiga kallisSee töötab hästi suurte andmekogumitega, millel on tohutu maht, kiirus ja mitmekesisus
AgilitySee on vähem liikuv ja kindla konfiguratsioonigaSee on väga paindlik, seadistage ja konfigureerige vastavalt vajadusele
TurvalisusAndmelao tehnoloogiad on olnud olemas juba aastakümneid. Seega võime turvalisuse osas tugineda Data Warehouse'ileKuigi Hadoopi tehnoloogiad on võrreldes Data Warehouse'iga suhteliselt uued, on turvalisus siin suur mure
KasutajadEttevõttespetsialistid kasutavad tavaliselt andmeladuHadoop on üsna kuulus andmeteaduse ja andmetöötluse valdkonnas

Järeldus - andmeladu vs Hadoop

Nüüd teame nii Data Warehouse'ist kui ka Hadoopist, vaatame tagasi ja uurime küsimust, mille esitasime selle Data Warehouse'i ja Hadoopi artikli alguses -

1) kui teil on suuri andmeid, kas vajate andmeladu?

Vastus - kui teie organisatsioon vajab usaldusväärseid, usutavaid ja juurdepääsetavaid andmeid, on teil vaja andmekogu.

2) Kas Hadoop asendab andmelao?

Vastus - andmelao ja Hadoopi võrdlemine on nagu õunte ja apelsinide võrdlemine. Neil nii Data Warehouse'il kui ka Hadoopil on erinevates kasutusjuhtumitestsenaariumides oma eelised. Mõnel juhul sõltume endiselt traditsioonilistest andmelao tehnikatest, kuid aja muutudes keskendume suurandmete probleemide lahendamiseks rohkem Hadoop Frameworkile.

3) Kas see on traditsioonilise Data Warehouse'i ajastu surm?

Vastus - nagu näete, pole see tegelikult lihtne küsimus ja seetõttu ei sobi see lihtsa vastuse saamiseks. On tõsi, et suurandmed muudavad lähiaastatel traditsioonilist andmete ladustamise lähenemisviisi, kuid see ei aeguta andmete ladustamise mõisteid ja tava.

Soovitatav artikkel

See on olnud kasulik juhend Data Warehouse vs Hadoop jaoks. Siin oleme arutanud nende tähenduse, pea võrdluse, võtme erinevuste ja järelduste üle. Lisateabe saamiseks võite vaadata ka järgmist artiklit -

  1. Hadoop vs Splunk - saate teada 7 parimat erinevust
  2. Hadoop vs Elasticsearch - kumb on kasulikum
  3. Big Data vs Data Warehouse - saate teada parimad erinevused
  4. Äriteave vs andmeladu
  5. Splunk vs Nagios