Hadoopi alternatiivid - Hadoopi komponendid ja parimad alternatiivid

Sissejuhatus Hadoopi alternatiividesse

Apache Hadoop on koletu raamistik, mis kasutab mitut muud komponenti nagu HDFS, Hive, Spark, YARN ja Zookeeper. Seda kasutatakse sise- või välisallikatest kogutud andmete töötlemiseks ja analüüsimiseks. See võib ulatuda mitmest masinast või serverist tuhandeteni. Seal on palju sisseehitatud raamatukogu funktsioone, mis suudavad rikkeid tuvastada ja nendega toime tulla.

Hadoopi komponendid

1) Hadoopi hajutatud failisüsteem (HDFS):

See on Hadoopi andmemahuti. See töötab hajutatud andmete põhimõttel, kus tohutud andmekomplektid jagatakse väikesteks osadeks ja salvestatakse klastrisse mitme masina vahel.

2) MapReduce:

See on programmeerimismudel, mille eesmärk on analüüsida paralleelselt klastri erinevates sõlmedes olevaid andmeid.

3) taru:

Avatud lähtekoodiga raamistik, mida kasutatakse päringu saamiseks struktureeritud andmetele, kasutades tarude-päringu keelt. Indekseerimise funktsiooni kasutatakse päringuprotsessi kiirendamiseks.

4) Ambari:

Platvorm klastri tervise jälgimiseks ja toimingute automatiseerimiseks. Sellel on lihtne veebi kasutajaliides ja seda saab hõlpsasti installida ja konfigureerida.

Hadoopi alternatiivide loetelu

Allpool on erinevad Hadoopi alternatiivid, mis on järgmised:

Partii töötlemine

Siin töödeldakse ainult arhiiviandmeid. Näiteks finantsauditid ja loendus on vanade andmete analüüs, et tulevasi tulemusi paremini ennustada. Need andmed võivad sisaldada miljardeid ridu ja veerge. Pakktöötlus sobib kõige paremini suurte andmete töötlemiseks, ilma et oleks vaja reaalajas analüüsi.

Töötlemine reaalajas

Seda tuntakse ka voo töötlemise nime all. Siin töödeldakse andmeid aeg-ajalt, kuna need genereeritakse, et saada kiire ülevaade tõenäolistest tulemustest. Maavärina avastamise ja aktsiaturud on parimad näited, kus reaalajas analüüs on kohustuslik.

Apache säde

Spark on raamistik, mida kasutatakse koos Hadoopiga pakett- või reaalajas andmete töötlemiseks klastritud masinates. Seda saab kasutada ka eraldiseisvana, hankides ja säilitades andmeid kolmanda osapoole serverites ilma HDFS-i kasutamata. See on avatud lähtekoodiga toode. See pakub API-sid, mis on kirjutatud kasutades üldist töötlemist toetavaid SCALA, R või Python. Struktureeritud andmete töötlemiseks saab kasutada Spark-SQL-i. Spark Streaming täidab väga vajalikke reaalajas analüüse. Spark toetab MLIB-i abil masinõppimist. Lõpuks saab töödeldud andmeid vaadata Graphixi abil.

Sparki kõige tähelepanuväärsem omadus on mälust töötlemine. Kogu andmete töötlemine toimub mälus ja mitte kettal. See meetod säästab sisendi lugemise ja kirjutamise aja kettale ja väljundi sellest tagasi. Spark on välkkiire ja peaaegu 100 korda kiirem kui Hadoopi töötlemine. Kogu funktsioon on määratletud ja edastatud Sparki konteksti. Alles siis algab töötlemine nullist. Seda meetodit tuntakse kui laiska täitmist. Andmete voogesituse sisenditena kasutatakse Kafkat, Flume'i. Struktureeritud või struktureerimata andmeid saab Spark kasutada analüüsimiseks. Andmevood on hunnik andmeid kindla ajavahemiku kohta sädeme voogesituses. Need muundatakse partiideks ja edastatakse töötlemiseks Spark Engine'ile. Enne Spark-SQL-i kasutamist edasiseks analüüsimiseks teisendatakse struktureeritud andmed andmeraamideks.

Apache Storm

Apache Storm on ka üks Hadoopi alternatiividest, mis sobib kõige paremini hajutatud reaalajas analüüsiks. Seda on lihtne üles seada, kasutajasõbralik ja see ei kaota andmeid. Tormil on Hadoopiga võrreldes väga suur töötlemisvõimsus ja madal latentsusaeg (tavaliselt sekundites).

Vaatame lähemalt Tormi töövoogu:

Tormi topoloogia (sarnane DAG-ga, kuid füüsilise hukkamiskavaga) esitatakse Nimbusele (peasõlm).
Ülesanded ja nende täitmise järjekord esitatakse Nimbusele.
Nimbus jaotab saadaolevad ülesanded ühtlaselt järelevaatajatele (Spouts) ja protsessi viivad läbi töösõlmed (poldid).
Õlgade ja poltide tervist jälgitakse pidevalt südamelöökide kaudu. Kui juhendaja sureb, eraldab Nimbus ülesande teisele sõlmele.
Kui Nimbus sureb, taaskäivitatakse seirevahendid automaatselt. Vahepeal jätkavad juhendajad varem määratud ülesannete täitmist.
Kui Nimbus on taaskäivitatud, töötab see edasi kohast, kus see peatus. Seega ei toimu andmete kadu ja kõik andmed läbivad topoloogia vähemalt üks kord.
Topoloogia jätkub, kuni Nimbus on peatatud või peatatud.
Torm kasutab loomaaia pidajat Nimbuse ja teiste järelevalvesõlmede jälgimiseks.

Suur päring

Andmebaase kasutatakse tehingute töötlemiseks. Juhid koostavad aruandeid ja analüüsivad andmeid erinevatest andmebaasidest. Tutvustati andmebaasid, et koguda andmeid kogu organisatsiooni andmebaasidest. Google arendas välja Big päringu, mis on omaenda hallatav andmeladu. Väga keerukate päringute tegemiseks võib vaja minna väga tõhusaid servereid ja sõlmemasinaid, mis võivad maksta tohutult. Infrastruktuuri seadistamine võib võtta mitu nädalat. Kui maksimaalne künnis on saavutatud, tuleb seda suurendada. Nendest probleemidest ülesaamiseks pakub suur päring salvestust Google'i pilve kujul. Töötaja sõlmed skaleeruvad vastavalt andmekeskuse suurusele, et vajadusel sekundite jooksul keerukas päring läbi viia. Maksate selle eest, mida kasutate, st päringuid. Google hoolitseb ressursside, nende hoolduse ja turvalisuse eest. Päringute käivitamine tavalistes andmebaasides võib võtta minuteid kuni tunde. Suur päring töötleb andmeid palju kiiremini ja see sobib peamiselt selliste andmete voogesitamiseks nagu veebimängud ja asjade Internet (IoT). Töötlemiskiirus on sama suur kui miljardid read sekundis.

Presto

Presto päringut saab kasutada organisatsiooni erinevatest allikatest pärit andmete ühendamiseks ja nende analüüsimiseks. Andmed võivad paikneda tarus, RDBMS või Cassandras. Presto sobib kõige paremini analüütikutele, kes ootavad kogu päritud aruannet mõne minuti jooksul. Arhitektuur on analoogne klassikalise andmebaasihaldussüsteemiga, kus klastris kasutatakse mitut sõlme. Selle on välja töötanud Facebook analüüside tegemiseks ja nende siseandmetest, sealhulgas nende 300PB andmelaost, ülevaate saamiseks. Nende andmete põhjal tehakse petabüüdi kohta skannimiseks päevas enam kui 30 000 päringut. Presto kasutavad ka teised juhtivad ettevõtted, näiteks Airbnb ja Dropbox.

Soovitatav artikkel

See on olnud Hadoopi alternatiivide juhend. Siin arutame Hadoopi alternatiivide Hadoopi komponente, pakkide töötlemist ja reaalajas töötlemist. Lisateabe saamiseks võite vaadata ka järgmisi artikleid:

Hadoopi administraatori töökohad
Hadoop vs SQL jõudlus
Karjäär Hadoopis
Hadoop vs säde
Hadoopi administraator | Oskused ja karjääritee

Hadoopi alternatiivid - Hadoopi komponendid ja parimad alternatiivid

Lang L: none (table-of-contents):

Sissejuhatus Hadoopi alternatiividesse

Hadoopi komponendid

1) Hadoopi hajutatud failisüsteem (HDFS):

2) MapReduce:

3) taru:

4) Ambari:

Hadoopi alternatiivide loetelu

Partii töötlemine

Töötlemine reaalajas

Apache säde

Apache Storm

Suur päring

Presto

Soovitatav artikkel

Mis on esiotsa arendaja? - Juhend rollide, oskuste ja karjäärikasvu kohta

Mis on FreeBSD? - Siit saate teada FreeBSD eeliseid ja puudusi

Mis on funktsionaalne testimine? - Funktsionaalse testimise omadused ja tüübid

Mis on hägune loogika? - Kuidas see töötab - Arhitektuur ja rakendus

Mis on geneetiline algoritm? - Geneetilise algoritmi faasid ja rakendused

VBA sõnaraamat - Sammud sõnaraamatu loomiseks Excelis VBA

VBA üritused - Kuidas kasutada funktsiooni DoEvents rakenduses Excel VBA?

VBA hämar - Kuidas kasutada Excel VBA Dim'i? (Näited)

VBA Do Loop - Kuidas kasutada Excelis Do Loopi VBA-koodi abil?

VBA kustuta rida - Kuidas kustutada rida Excel VBA-s?

Matlabi käsud - Käskude põhiloend

Maatriksi korrutamine Java-s - Üldine metoodika - Näited

Maveni intervjuu küsimused ja vastused - Üles ja enim küsitud

Maven vs Ant - 34 parimat erinevust, mida infograafikaga õppida

Maya kiirklahvid - Maja jaoks olulised kiirklahvid