Erinevus HDFS ja HBase vahel

HDFS (Hadoopi hajutatud failisüsteem) HDFS võimaldab salvestada tohutul hulgal andmeid hajutatud ja üleliigsel viisil, mis töötab kauba riistvara peal. HBase (Hadoopi andmebaas) on NoSQL andmebaas, mis töötab teie Hadoopi klastri peal

Vaatame vastavalt HDFSi ja HBase komponente ja arhitektuuri:

HDFS-i komponendid

  • NameNode
  • DataNode

NameNode: NameNode-d võib pidada süsteemi ülemaks. See hooldab kõigi süsteemis olevate failide ja kataloogide failisüsteemi puud ja metaandmeid. Metaandmete teabe salvestamiseks kasutatakse kahte faili - nimeruumi pilt ja redigeerimise logi. Namenode omab teadmisi kõigist antud faili andmeplokke sisaldavatest andmesõlmedest, kuid ei salvesta püsivalt plokkide asukohti. See teave rekonstrueeritakse süsteemi käivitamisel iga kord andmetesõlmedest.

DataNode: DataNodes on orjad, kes asuvad klastris igas masinas ja pakuvad tegelikku salvestusruumi. See vastutab klientide taotluste teenindamise, lugemise ja kirjutamise eest.

HDFS arhitektuur: -

HBase komponendid: -

  • Hbase meister
  • Piirkonna server
  • Piirkond
  • Loomaaiatalitaja

HMaster : see on HBase-i arhitektuuri peaserver. Kogu regiooniserveri jälgimiseks on jälgimisagent ja HMasteri kohustus on olla kõigi metaandmete muudatuste liides. See töötab saidil NameNode.

Regioonide serverid: kui regiooniserver võtab vastu kliendi päringuid ja loeb neid, määrab ta päringu konkreetsele piirkonnale, kus asub tegelik veerupere. Klient saab aga otse piirkonna serveritega kontakti, HMasteri jaoks ei ole piirkonnaserveritega suhtlemiseks vaja HMasteri kohustuslikku luba. Klient nõuab metaandmete ja skeemi muudatustega seotud toimingute tegemiseks HMasteri abi.

Piirkonnad: Regioonid on HBase klastri põhielemendid, mis koosneb tabelite jaotusest ja koosneb veergude perekondadest. See sisaldab mitut poodi, üks iga veerupere kohta. See koosneb peamiselt kahest komponendist, milleks on Memstore ja Hfile.

ZooKeeper: Hbase'is on Zookeeper tsentraliseeritud seireserver, mis hoiab konfiguratsiooniteavet ja pakub hajutatud sünkroonimist. Hajutatud sünkroonimine on juurdepääs klastris töötavatele hajutatud rakendustele, mille ülesanne on pakkuda sõlmedevahelisi koordineerimisteenuseid. Kui klient soovib suhelda piirkondadega, peab serveri klient kõigepealt pöörduma ZooKeeperi poole.

HBase'i arhitektuur: - HBase on osa Hadoopi ökosüsteemist.

Sügavuspõhine mudel: -

HDFS-i ja HBase-i võrdlus ühest otsast teise (infograafika)

Allpool on 14 parimat HDFS-i ja HBase-i võrdlust

Peamised erinevused HDFS ja HBase vahel

Allpool on erinevus HDFS ja HBase vahel järgmised

  1. HDFS on hajutatud failisüsteem, mis sobib hästi suurte failide hoidmiseks. Kuid teiselt poolt on HBase üles ehitatud HDFS-i peale ja see pakub kiireid rekordilisi otsinguid (ja värskendusi) suurte tabelite jaoks.
  2. HDFS põhineb GFS-failisüsteemil. Kuid HBase on levitatud - kasutab HDFS-i ladustamiseks, veerg - orienteeritud, mitmemõõtmelist (versioonid) ja salvestussüsteemi
  3. HDFS kasutab HIVE-i ühe komponendina päringkeele jaoks, mis on HIVE Query Language (HQL), kuid Hbase EI OLE SQL-andmebaas, mis tähendab: - pole liitumisi, pole päringumootorit, andmetüüpe, pole (neetud) SQL-i, skeemi pole ja DBA pole vaja.
  4. Kuna HDFS on hajutatud salvestusüksus, ei oma seepärast muud konkreetset keelt peale kasutatavate käskude, nagu näiteks UNIX-i maitse: - Hadoop dfs -mkdir / foodir
  5. hadoop dfs -cat /foodir/myfile.txt
  6. hadoop dfs -rm /foodir/myfile.txt

Kuid teisest küljest on Hbase'il oma liides Hbase Shelli kujul, näiteks:

  1. hbase (peamine): 003: 0> looge 'test', 'cf'

0 rida 1, 2200 sekundiga

  1. hbase (peamine): 004: 0> pane 'test', 'rida 1', 'vrd: a', 'väärtus1'

0 rida 0, 0560 sekundiga

  1. hbase (peamine): 005: 0> pane 'test', 'rida 2', 'vrd: b', 'väärtus2'

0 rida 0, 0370 sekundiga

  1. hbase (peamine): 006: 0> pane 'test', 'rida3', 'vrd: c', 'väärtus3'

0 rida 0, 0450 sekundiga

  1. hbase (peamine): 007: 0> skaneeri 'test'

Rida VEERUM + KELL

1. rea veerg = vrd: a, ajatempel = 1288380727188, väärtus = väärtus1

2. rea veerg = vrd: b, ajatempel = 1288380738440, väärtus = väärtus2

3. rea veerg = vrd: c, ajatempel = 1288380747365, väärtus = väärtus3

3 rida 0, 0590 sekundiga

HDFS vs HBase võrdlustabel

Võrdluse alusHDFSHBase
Miks me neid vajame?Vaja on töödelda tohutuid andmekogumeid suurtes klastrites arvutitesHBase on hajutatud veerupõhine andmehoidla, mis on üles ehitatud HDFS-i peale
Sõlmed ebaõnnestuvad iga päeva) Ebaõnnestumine on pigem oodata
b) klastris olevate sõlmede arv ei ole konstantne
HBase on Apache avatud lähtekoodiga projekt, mille eesmärk on pakkuda Hadoopi hajutatud arvutisalvestusruumi
Kirjutage musterAinult lisaJuhuslik kirjutamine, mahu suurendamine
Loe mustritTäislaua skannimine, partitsioonitabeli skannimineJuhuslik lugemine, väikese ulatuse või tabeli skannimine
W / R musterHDFS sobib ideaalselt ühekordseks kirjutamiseks ja mitu korda lugemiseksHBase sobib ideaalselt HDFS-is salvestatud andmete juhuslikuks kirjutamiseks ja lugemiseks.
Taru (SQL) jõudlusSuhteliselt väga hea4-5 korda aeglasemalt
Struktureeritud salvestusruumTehke seda ise või TSV või järjestuste failHõreda veeru perekonna andmemudel
Andmete maksimaalne suurusTavaliselt saab kauplustes hoida umbes 30 PBLigikaudu 1 PB
Dünaamilised muudatusedHDFS-il on jäik arhitektuur, mis muudatusi ei luba. See ei hõlbusta dünaamilist salvestamist.HBase võimaldab dünaamilisi muudatusi ja seda saab kasutada iseseisvate rakenduste jaoks.
Andmete levitamineAndmeid hoitakse jaotatult klastri sõlmedes. Andmed jagatakse plokkideks ja salvestatakse seejärel HDFS-klastris olevate sõlmede kohale.Tabelid jaotatakse klastris piirkondade kaudu ning teie andmete kasvades jaotatakse piirkonnad automaatselt ümber
AndmekoguKõik andmed salvestatakse väikeste failidena ja kõigi failide tüüpiline suurus on 64 MB (mis uuemas versioonis on 128 MB)Kõik andmed salvestatakse tabelite, ridade ja veergude kujul
Andmete modelleerimineHDFS-is kasutame Map Reduce tehnikat, mis jagab failid võtme-väärtuse paaridesseHBase põhineb Google'i Bigtable mudelil, mis kasutab ka võtme-väärtuse paare
OperatsioonidSellel on kõrge latentsusajaga toimingudSellel on vähe latentsusaega operatsioone
JuurdepääsetavusSellele pääseb peamiselt MR (Map Reduce) tööde kauduSellele pääseb juurde shellikäskluste, Java API, REST, Avro või Thrift kliendi API kaudu

Järeldus - HDFS vs HBase

Üldiselt võib öelda, et nii HDFS-il kui ka HBase-l on omaette suurepärased tehnoloogiad. Mõlemad, nii HDFS kui ka HBase, loodi suurandmete salvestamiseks ning nendele juurdepääsu ja nende arvutamise hõlpsaks muutmiseks. Mõlemad, nii HDFS kui ka HBase, käivad kõrvuti, kuna üks HDFS salvestab andmed, teine ​​HBase paneb andmetesse skeemi, kuidas neid hiljem kliendi kasutamiseks salvestada ja hankida.

Hbase on üks NoSql veerupõhistest hajutatud andmebaasidest, mis on saadaval apache sihtasutuses. HBase annab rohkem jõudlust vähem kirjete hankimiseks kui Hadoop või Hive. Sisendväärtust on väga lihtne otsida, kuna see toetab indekseerimist, tehinguid ja värskendamist.

Saame võrgus reaalajas analüüse teha Hbase abil, mis on integreeritud Hadoopi ökosüsteemiga. Sellel on automaatne ja konfigureeritav andmekogude või tabelite varjestus ja see pakub rahustavaid API-sid MapReduce'i tööde tegemiseks.

Soovitatav artikkel

See on olnud juhend HDFS vs HBase, nende tähenduse, pea võrdluse kohta, peamised erinevused, võrdlustabel ja järeldus. sellel artiklil on HDFSi ja HBase'i vahel kõik kasulikud erinevused. Lisateabe saamiseks võite vaadata ka järgmisi artikleid -

  1. HBase vs Cassandra - kumb on parem (infograafika)
  2. Siit saate teada 7 parimat erinevust Hadoopi ja HBase'i vahel
  3. Apache taru ja Apache HBase 12 parima võrdlus (infograafika)

Kategooria: