Erinevus Apache taru ja Apache HBase vahel -

Apache Hive lugu algab 2007. aastal, kui mitte Java programmeerija peab Hadoopi MapReduce'i kasutamise ajal vaeva nägema. Teadlased ja arendaja ennustasid, et homme on Big Data ajastu. Juba kogunesid erinevad andmevormingud, näiteks struktureeritud, poolstruktureeritud ja struktureerimata. Isegi Facebook oli hädas suurema andmetöötluse hulgaga. Facebooki teadlased tutvustasid Hadoopi klastri andmehalduse jaoks Apache taru. Facebook oli esimene ettevõte, kes pakkus välja Apache Hive.

Apache HBase lugu algab 2006. aastal, kui San Franciscos asuv startup Powerset üritas veebi loomuliku keele otsingumootorit üles ehitada. HBase on Google'i Bigtable'i rakendus. Kas me mõistsime kunagi, miks oli vaja välja töötada veel üks salvestusarhitektuur? Suhtete andmebaasi haldussüsteem on olnud kasutusel juba 1970. aastate algusest peale. On palju kasutusjuhtumeid, mille jaoks relatsiooniandmebaasid on täiesti mõistlikud, kuid mõne konkreetse probleemi korral ei sobi relatsioonimudel väga hästi.

Selgitan lähemalt Apache Hive'i ja Apache HBase'i.

Erinevused Apache Hive ja Apache HBase vahel

Apache taru on Apache avatud lähtekoodiga projekt, mis on üles ehitatud Hadoopi peale, et SQL-i laadse liidese abil suurtest andmekogumitest päringuid teha, neid kokku võtta ja analüüsida. Apache Hive pakub SQL-i tüüpi keelt nimega HiveQL, mis teisendab päringud MapReduce'iks läbipaistvalt Hadoopi hajutatud failisüsteemi (HDFS) salvestatud suurte andmekogumite jaoks täitmiseks. Apache taru on Hadoopi klastrikomponent, mida tavaliselt kasutavad andmeanalüütikud. Apache'i taru kasutatakse suurte ETL-tööde pakkimistöötluseks. Apache Hive toetab ka väga suurte andmestike pakett-SQL päringuid. Apache Hive suurendab skeemi kujundamise paindlikkust ning ka andmete seerialiseerimist ja põhjalikku vormistamist. Apache taru ei toeta veebitehingute töötlemist (OLTP), kuna taru ei toeta päringute reaalajas ja rea ​​tasemel värskendusi.

Apache HBase on avatud lähtekoodiga NoSQL andmebaas, mis pakub reaalajas juurdepääsu lugemis- ja kirjutamisvõimalustele suurtele andmekogumitele. NoSQL on mitterelatsiooniline andmebaas. Apache HBase on levitatud veerupõhine andmebaas, mis töötab Hadoopi hajutatud failisüsteemi (HDFS) peal. Niisiis, HBase toob Hadoopile NoSQL-i eeliseid. Apache HBase pakub HDFS-is olevatele andmetele juhusliku juurdepääsu võimalusi. See kasutab HDFS-i pakutavat tõrketaluvust. Kasutaja saab andmeid HDFS-i salvestada kas otse või HBase'i kaudu.

Võrdlus Apache Hive'i ja Apache HBase'i vahel (infograafika)

Allpool on toodud 12 peamist erinevust Apache Hive ja Apache HBase vahel

Peamised erinevused - Apache taru vs Apache HBase

Allpool on punktide loendid, kirjeldage peamisi erinevusi Apache Hive'i ja Apache HBase'i vahel:

  • Apache HBase on andmebaas, samas kui Apache Hive on andmebaasimootor.
  • Apache taru kasutatakse peamiselt pakkide töötlemiseks (OLAP), samas kui Apache HBase kasutatakse peamiselt tehingute töötlemiseks (OLTP).
  • Apache Hive täidab suurema osa SQL päringutest, samas kui Apache HBase ei luba SQL päringuid otse.
  • Apache Hive ei toeta kirjetaseme toiminguid, nagu värskendamine, lisamine ja kustutamine, samas kui Apache HBase toetab selliseid kirjetaseme toiminguid nagu värskendamine, sisestamine ja kustutamine.
  • Apache Hive töötab MapReduce peal, Apache HBase aga Hadoopi hajutatud failisüsteemi (HDFS) peal.

Apache Hive pärib faile, määratledes virtuaalse tabeli ja käivitades selle peal HQL-päringud. See on protsess, kus failid on praktiliselt ühendatud tabelilaadse struktuuriga ja kasutaja saab käivitada taru päringute keelt (HQL) ja need päringud teisendatakse taruga MapReduce Jobiks. Kasutaja ei pea MapReduce'i tööd kirjutama, HQL-päringud teisendatakse sisemiselt jar-failideks ja neid jar-faile rakendatakse andmekogudes.

Apache HBase'is on tabelid jagatud piirkondadeks ja neid teenindavad piirkonna serverid. Edasised piirkonnad jaotatakse vertikaalselt veeruperekondade kaupa poodideks ja kauplused salvestatakse failidena HDFS-is.

Millal Apache taru kasutada?

  • Andmete ladustamise nõuded
  • Analüütilised päringud
  • Andmeanalüüs, kes tunnevad SQL-i

Millal Apache HBase'i kasutada?

  • Kiire ja interaktiivne andmetöötlus
  • Päringud reaalajas
  • Kiire otsingud
  • Serveripoolne töötlemine
  • Juurdepääs Big Datale juhusliku lugemise / kirjutamise kaudu
  • Rakenduse mastaapsus

Apache taru saab kasutada e-kaubanduse veebisaidi suundumuste ja logide arvutamiseks kindla kestuse, piirkonna või ajavööndi jaoks. Seda saab kasutada pakettpäringute töötlemiseks ajalooliste andmete kaudu, samas kui Apache HBase'i saavad Facebook või LinkedIn kasutada sõnumite ja reaalajas analüüsi jaoks. Seda saab kasutada ka meeldimiste loendamiseks.

Apache taru vs Apache HBase võrdlustabel

Arutlen peamiste esemete üle ning eristan Apache Hive'i ja Apache HBase'i.

Apache taruApache HBase
AndmetöötlusApache taru kasutatakse

partii töötlemine, st veebipõhine analüütiline töötlemine (OLAP)

Apache HBase kasutatakse tehingute töötlemiseks, st veebipõhiseks tehingute töötlemiseks (OLTP)
TöötlemiskiirusApache Hive'il on suurem latentsus, kuna MapReduce'i töö taustal täidetakseApache HBase töötab päringute abil reaalajas ja palju kiiremini kui Apache Hive
Ühilduvus HadoopigaApache Hive töötab MapReduce'i pealApache HBase töötab HDFS peal
DefinitsioonApache taru on avatud lähtekoodiga ja sarnane SQL-ga, mida kasutatakse analüütiliste päringute jaoksApache HBase on avatud lähtekoodiga NoSQL andmebaas, mida kasutatakse päringute tegemiseks reaalajas
Jagatud metaandmedApache Hive'is loodud andmed on Apache HBase'ile automaatselt nähtavadApache HBase'is loodud andmed on Apache Hive'ile automaatselt nähtavad
SkeemApache taru toetab andmete tabelitesse sisestamise skeemiApache HBase on skeemivaba andmebaas.
Värskenda funktsiooniUuendusfunktsioon on Apache Hive'is keerulineKasutaja saab andmeid väga hõlpsalt Apache HBase'is värskendada
OperatsioonidOperatsioonid Apache Hive'is ei toimu reaalajasOperatsioonid Apache HBase'is toimuvad reaalajas
AndmetüübidApache taru on mõeldud struktureeritud ja poolstruktureeritud andmete jaoksApache HBase on struktureerimata andmete jaoks.
Järjepidevuse taseApache taru toetab võimalikku järjepidevustApache HBase toetab viivitamatut järjepidevust
JaotusmeetodidApache Hive toetab Shardingi funktsiooneApache HBase toetab ka Shardingi funktsioone
AndmekoguKuupäev salvestatakse Apache Hive'i Hive Metastore, vaheseinad ja ämbridAndmeid hoitakse Apache HBase tabelites veergude ja ridade kaupa

Järeldus - Apache taru vs Apache HBase

Tavaliselt kasutatakse samas klastris Apache Hive vs Apache HBase. Mõlemat saab töötlemisvõimsuse suurendamiseks kasutada koos. Kuna taru parandab HDFS-i analüütilisi külgi, HBase parandab tehinguid reaalajas. Kasutaja saab kasutada taru ETL-i tööriistadena pakkide lisamiseks koos andmetega HBase-i ja seejärel päringute tegemiseks, mis võivad HBase-tabelites olevad andmed täiendavalt ühendada HDFS-is juba sisalduvate andmetega. Andmeid saab lugeda ja kirjutada Apache Hive'ist HBase'i ja uuesti. Apache Hive'i ja Apache HBase'i liides on veel küpsemisjärgus. Ees on veel palju muud. Siiski võin öelda, et mõlemad Apache Hive vs Apache HBase muudavad Hadoopi klastri robustsemaks ja võimsamaks.

Seotud artiklid:

See on olnud juhend Apache Hive vs Apache HBase, nende tähenduse, pea võrdluse kohta, peamised erinevused, võrdlustabel ja järeldus. Lisateabe saamiseks võite vaadata ka järgmisi artikleid -

  • 5 parimat suurandmete suundumust
  • 5 suurandmete analüüsi väljakutseid
  • Kuidas hävitada Hadoopi arendaja intervjuud?
  • 5 suurandmete analüüsi väljakutseid

Kategooria: