Taru ja Impala erinevus

Hive on Jeffi Facebooki meeskonna välja töötatud APACHE HADOOPi peale üles ehitatud andmelao tarkvaraprojekt, mille praegune stabiilne versioon 2.3.0 on välja antud. Seda kasutatakse suurte andmete kokkuvõtmiseks ning see teeb päringute tegemise ja analüüsi lihtsaks. Apache taru on tõhus standard SQL-in Hadoopi jaoks. Impala on paralleelselt töötav SQL päringumootor, mis töötab Apache Hadoopis ja mida kasutatakse HBase (Hadoopi andmebaas) ja Hadoopi hajutatud failisüsteemi salvestatud andmete töötlemiseks. Impala on avatud lähtekoodiga toode paralleelse töötlemise (MPP) SQL päringumootori jaoks, mis on salvestatud Apache Hadoopis töötavas lokaalses süsteemiklastris. Apache Hive ja Impala on mõlemad Hadoopi süsteemi põhiosad.

Uurime üksikasjalikult nii Taru kui ka Impalat:

Taru

  • Apache Hive aitab analüüsida Hadoopi failisüsteemi (HDFS) ja muudesse ühilduvatesse failisüsteemidesse salvestatud tohutut andmekogumit.
  • Hive QL - Hadoopi klastrisse salvestatud andmete pärimiseks .
  • Kasutab tõlke kaudu Hadoopi mastaapsust .
  • Taru EI OLE täielik andmebaas .
  • See ei paku rekordtaseme värskendusi .
  • Hadoop on partiile orienteeritud süsteem .
  • Tarupäringutel on MapReduce'i tõttu kõrge latentsusaeg .
  • Taru ei paku funktsioone. See on OLAP-i lähedal .
  • Sobib kõige paremini andmelao rakenduste jaoks .
  • Päringu täitmine MapReduce'i kaudu .
  • päringkeelt saab kasutada kohandatud skalaarfunktsioonide (UDF), liitmiste (UDAF) ja tabelifunktsioonide (UDTF) korral .
  • Taru pakub kiirendamiseks ka indekseerimist, indeksitüüpi koos tihendamise ja bitmap-indeksiga alates 0, 10, plaanitakse veel mõnda indeksitüüpi.
  • Hive toetatavad salvestustüübid on RCfile, HBase, ORC ja Plain text .
  • SQL-i sarnased päringud (Hive QL), mis teisendatakse kaudselt MapReduce või Tez või Spark töödeks .
  • Vaikimisi salvestab Hive metaandmed manustatud Apache Derby andmebaasi .

IMPALA

  • Impala on päringumootor, mis töötab saidil Hadoop . Avalik beetatesti levitamine kuulutati välja 2012. aasta oktoobris ja see sai üldiselt kättesaadavaks 2013. aasta mais.
  • See toetab HDFS Apache HBase ladustamist ja Amazon S3 .
  • Loeb Hadoopi failivorminguid, sealhulgas teksti-, parketi-, Avro-, RCFile-, LZO- ja jadafaile .
  • Toetab Hadoopi turvalisust (Kerberose autentimine) .
  • Kasutab Apache Hive'i metaandmeid, ODBC draiverit ja SQL-i süntaksi .
  • See toetab mitut tihenduskoodeki:

a) vaikne (soovitatav efektiivse tasakaalu saavutamiseks tihendussuhte ja dekompressioonikiiruse vahel),

b) Gzip (soovitatav kõrgeima pakkimistaseme saavutamiseks),

c) tühjendada (ei toetata tekstifailide puhul), Bzip2, LZO (ainult tekstifailide puhul);

  • See võimaldab teil teha päringuid pesastatud struktuuridel, sealhulgas kaartidel, struktuuridel ja massiividel.
  • See võimaldab mitme kasutaja samaaegseid päringuid ning lubab ka sissepääsu kontrolli prioriteetide seadmise ja päringute järjekorda seadmise alusel.

Pea ja pea võrdlused taru ja impala vahel (infograafika)

Allpool on 20 parimat Hive'i ja Impala vahelist võrdlust

Põhiline erinevus taru ja Impala vahel

Tarude ja Impala erinevusi selgitatakse allpool toodud punktides:

  • Taru on välja töötanud Jeffi meeskond Facebookis, Impalat arendab aga Apache Software Foundation .
  • Taru toetab optimeeritud reasammaste (ORC) vormingu failivormingut Zlibi tihendusega, kuid Impala toetab parketi vormingut käreda tihendamisega .
  • Taru on kirjutatud Java keeles, Impala aga C ++ keeles.
  • Päringutöötluse kiirus tarus on aeglane, kuid Impala on 6-69 korda kiirem kui taru .
  • Tarus on latentsus kõrge, Impala puhul aga latentsus madal .
  • Taru toetab RC-failide ja ORC-de salvestamist, kuid Impala salvestusfunktsioonid on Hadoop ja Apache HBase .
  • Taru genereerib päringu avaldamise kompileerimise ajal, kuid Impala koodide genereerimine '' suurte silmuste 'jaoks toimub käitusaja jooksul .
  • Taru ei toeta paralleelset töötlemist, kuid Impala toetab paralleelset töötlemist.
  • Taru toetab MapReduce'i, kuid Impala ei toeta MapReduce'i .
  • Tarus pole turvafunktsiooni, kuid Impala toetab Kerberose autentimist .
  • Mis tahes projekti täiustamisel, kus oluline on ühilduvus ja kiirus, on taru ideaalne valik, kuid uue projekti jaoks on Impala ideaalne valik .
  • Taru on tõrketaluvusega, kuid Impala ei toeta tõrketaluvust .
  • Taru toetab keerulist tüüpi, kuid Impala ei toeta keerukaid tüüpe .
  • Taru on paketipõhine Hadoop MapReduce, kuid Impala on MPP andmebaas .
  • Taru ei toeta interaktiivset arvuti kasutamist, kuid Impala toetab interaktiivset arvuti kasutamist .
  • Taru päringul on nn külmkäivituse probleem, kuid Impala deemoni protsessis käivitatakse protsess juba alglaadimise ajal .
  • Tarude ressursside haldur on YARN (veel üks ressursside läbirääkija), kuid Impala ressursihaldur on päriskeelne * YARN .
  • Tarude jaotused on kõik Hadoopi jaotus, Hortonworks (Tez, LLAP), kuid Impala jaotuses on Cloudera MapR (* Amazon EMR) .
  • Tarude auditoorium on andmeinsenerid, Impala auditooriumis aga andmeanalüütikud / andmeteadlased.
  • Tarude läbilaskevõime on kõrge, kuid Impala läbilaskevõime on madal .

Taru vs Impala võrdlustabel

Seerianumber.Võrdluse alusTaruImpala
1ArendatudFacebookApache tarkvara
Sihtasutus
2Failiformaat
  • Järjestuse fail.
  • Tekstifail.
  • Optimeeritud reaveeruline (ORC) vorming Zlibi tihendusega.
  • RC-failivorming.
  • Parketi formaat koos rõveda tihendamisega.
  • Avro
  • LZO
  • Järjestuse fail.
3KeelKirjutatud JAVA-sKirjutatud C ++ keeles
4Töötlemise kiirusTaru on aeglaneImpala on kiire
5Latentne aegKõrgeMadal
6SalvestustugiRC-fail, ORCHadoop, Apache HBase
7Koodi teisendamineGenereerib päringu avalduse kompileerimise ajalKoodide genereerimine toimub töö ajal.
8Toetab paralleelset töötlemistEiJah
9MapReduce'i tugiJahEi
10.Hadoopi turvalisusEiToetab Kerberose autentimist.
11KasutamineIdeaalne projekti suurendamiseksIdeaalne uue projekti alustamiseks.
12VeatolerantsTaru on tõrketaluv.Ei toeta rikketolerantsi.
13.Keerukad tüübidTaru toetab keerulisi tüüpe.Impala ei toeta keerulisi tüüpe.
14.Andmebaasi tüüpHive on pakettpõhine Hadoop MapReduce.See on MPP andmebaas
15.Interaktiivne infotehnoloogiaEi toeta interaktiivset arvuti kasutamist.Toetab interaktiivset arvuti kasutamist.
16.HukkamineTaru päringul on probleem „Cold Start” -gaImpala protsess algab alati Deemonite alglaadimise ajal.
17.Ressursside haldamineLõngPäris * lõng
18.JaotusedHIVE - kõik Hadoopi jaotused, Hortonworks (Tez, LLAP)Cloudera MapR,
(* Amazoni EMR)
19.SihtrühmAndmeinseneridAndmeanalüütik / andmeteadlased
20.LäbilaskevõimeSuur läbilaskevõimeMadal läbilaskevõime

Järeldus - taru vs Impala

Selles artiklis oleme proovinud näidata, et mis on kaks tehnoloogiat, nimelt Hive ja Impala, ning nende tehnoloogiate põhiline erinevus. Praktiliselt võime öelda, et Hive ja Impala ei ole konkurendid, sest nad mõlemad kuuluvad ühte ja samasse sihtasutusse, mida nimetatakse päringute tegemiseks MapReduce'iks. Mõlema kasutamine võib tekitada erinevuse. Vastavalt oma vajadusele saame seda kasutada koos või parimal viisil vastavalt ühilduvusele, vajadusele ja jõudlusele. Taru päringu keel on Hive QL, mis on väga mitmekülgne ja universaalne keel, samal ajal kui Impala on mälumahukas ja ei tööta hästi raskete andmeoperatsioonide töötlemisel, näiteks liitumispäringud. Kui teie projektis on töö seotud suure hulga andmete kogutöötlusega, on taru sel juhul parem ja kui teie töö on seotud andmete sihtotstarbelise päringu reaalajas toimuvaga, on Impala parem sel juhul.

Soovitatav artikkel

See on olnud juhend taru Vs Impala, nende tähenduse, pea võrdluse kohta, peamised erinevused, võrdlustabel ja järeldus. Lisateabe saamiseks võite vaadata ka järgmisi artikleid -

  1. Apache taru vs Apache Spark SQL - 13 hämmastavat erinevust
  2. Taru VS HUE - 6 parimat kasulikku võrdlust õppimiseks
  3. Apache Pig vs Apache Hive - 12 parimat erinevust
  4. Hadoop vs taru - saate teada parimad erinevused
  5. Funktsiooni ORDER BY kasutamine tarus

Kategooria: