Taru vs Impala - 20 kõige kasulikumat asja, mida peaksite teadma

Taru ja Impala erinevus

Hive on Jeffi Facebooki meeskonna välja töötatud APACHE HADOOPi peale üles ehitatud andmelao tarkvaraprojekt, mille praegune stabiilne versioon 2.3.0 on välja antud. Seda kasutatakse suurte andmete kokkuvõtmiseks ning see teeb päringute tegemise ja analüüsi lihtsaks. Apache taru on tõhus standard SQL-in Hadoopi jaoks. Impala on paralleelselt töötav SQL päringumootor, mis töötab Apache Hadoopis ja mida kasutatakse HBase (Hadoopi andmebaas) ja Hadoopi hajutatud failisüsteemi salvestatud andmete töötlemiseks. Impala on avatud lähtekoodiga toode paralleelse töötlemise (MPP) SQL päringumootori jaoks, mis on salvestatud Apache Hadoopis töötavas lokaalses süsteemiklastris. Apache Hive ja Impala on mõlemad Hadoopi süsteemi põhiosad.

Uurime üksikasjalikult nii Taru kui ka Impalat:

Taru

Apache Hive aitab analüüsida Hadoopi failisüsteemi (HDFS) ja muudesse ühilduvatesse failisüsteemidesse salvestatud tohutut andmekogumit.
Hive QL - Hadoopi klastrisse salvestatud andmete pärimiseks .
Kasutab tõlke kaudu Hadoopi mastaapsust .
Taru EI OLE täielik andmebaas .
See ei paku rekordtaseme värskendusi .
Hadoop on partiile orienteeritud süsteem .
Tarupäringutel on MapReduce'i tõttu kõrge latentsusaeg .
Taru ei paku funktsioone. See on OLAP-i lähedal .
Sobib kõige paremini andmelao rakenduste jaoks .
Päringu täitmine MapReduce'i kaudu .
päringkeelt saab kasutada kohandatud skalaarfunktsioonide (UDF), liitmiste (UDAF) ja tabelifunktsioonide (UDTF) korral .
Taru pakub kiirendamiseks ka indekseerimist, indeksitüüpi koos tihendamise ja bitmap-indeksiga alates 0, 10, plaanitakse veel mõnda indeksitüüpi.
Hive toetatavad salvestustüübid on RCfile, HBase, ORC ja Plain text .
SQL-i sarnased päringud (Hive QL), mis teisendatakse kaudselt MapReduce või Tez või Spark töödeks .
Vaikimisi salvestab Hive metaandmed manustatud Apache Derby andmebaasi .

IMPALA

Impala on päringumootor, mis töötab saidil Hadoop . Avalik beetatesti levitamine kuulutati välja 2012. aasta oktoobris ja see sai üldiselt kättesaadavaks 2013. aasta mais.
See toetab HDFS Apache HBase ladustamist ja Amazon S3 .
Loeb Hadoopi failivorminguid, sealhulgas teksti-, parketi-, Avro-, RCFile-, LZO- ja jadafaile .
Toetab Hadoopi turvalisust (Kerberose autentimine) .
Kasutab Apache Hive'i metaandmeid, ODBC draiverit ja SQL-i süntaksi .
See toetab mitut tihenduskoodeki:

a) vaikne (soovitatav efektiivse tasakaalu saavutamiseks tihendussuhte ja dekompressioonikiiruse vahel),

b) Gzip (soovitatav kõrgeima pakkimistaseme saavutamiseks),

c) tühjendada (ei toetata tekstifailide puhul), Bzip2, LZO (ainult tekstifailide puhul);

See võimaldab teil teha päringuid pesastatud struktuuridel, sealhulgas kaartidel, struktuuridel ja massiividel.
See võimaldab mitme kasutaja samaaegseid päringuid ning lubab ka sissepääsu kontrolli prioriteetide seadmise ja päringute järjekorda seadmise alusel.

Pea ja pea võrdlused taru ja impala vahel (infograafika)

Allpool on 20 parimat Hive'i ja Impala vahelist võrdlust

Põhiline erinevus taru ja Impala vahel

Tarude ja Impala erinevusi selgitatakse allpool toodud punktides:

Taru on välja töötanud Jeffi meeskond Facebookis, Impalat arendab aga Apache Software Foundation .
Taru toetab optimeeritud reasammaste (ORC) vormingu failivormingut Zlibi tihendusega, kuid Impala toetab parketi vormingut käreda tihendamisega .
Taru on kirjutatud Java keeles, Impala aga C ++ keeles.
Päringutöötluse kiirus tarus on aeglane, kuid Impala on 6-69 korda kiirem kui taru .
Tarus on latentsus kõrge, Impala puhul aga latentsus madal .
Taru toetab RC-failide ja ORC-de salvestamist, kuid Impala salvestusfunktsioonid on Hadoop ja Apache HBase .
Taru genereerib päringu avaldamise kompileerimise ajal, kuid Impala koodide genereerimine '' suurte silmuste 'jaoks toimub käitusaja jooksul .
Taru ei toeta paralleelset töötlemist, kuid Impala toetab paralleelset töötlemist.
Taru toetab MapReduce'i, kuid Impala ei toeta MapReduce'i .
Tarus pole turvafunktsiooni, kuid Impala toetab Kerberose autentimist .
Mis tahes projekti täiustamisel, kus oluline on ühilduvus ja kiirus, on taru ideaalne valik, kuid uue projekti jaoks on Impala ideaalne valik .
Taru on tõrketaluvusega, kuid Impala ei toeta tõrketaluvust .
Taru toetab keerulist tüüpi, kuid Impala ei toeta keerukaid tüüpe .
Taru on paketipõhine Hadoop MapReduce, kuid Impala on MPP andmebaas .
Taru ei toeta interaktiivset arvuti kasutamist, kuid Impala toetab interaktiivset arvuti kasutamist .
Taru päringul on nn külmkäivituse probleem, kuid Impala deemoni protsessis käivitatakse protsess juba alglaadimise ajal .
Tarude ressursside haldur on YARN (veel üks ressursside läbirääkija), kuid Impala ressursihaldur on päriskeelne * YARN .
Tarude jaotused on kõik Hadoopi jaotus, Hortonworks (Tez, LLAP), kuid Impala jaotuses on Cloudera MapR (* Amazon EMR) .
Tarude auditoorium on andmeinsenerid, Impala auditooriumis aga andmeanalüütikud / andmeteadlased.
Tarude läbilaskevõime on kõrge, kuid Impala läbilaskevõime on madal .

Taru vs Impala võrdlustabel

Seerianumber.	Võrdluse alus	Taru	Impala
1	Arendatud	Facebook	Apache tarkvara Sihtasutus
2	Failiformaat	Järjestuse fail. Tekstifail. Optimeeritud reaveeruline (ORC) vorming Zlibi tihendusega. RC-failivorming.	Parketi formaat koos rõveda tihendamisega. Avro LZO Järjestuse fail.
3	Keel	Kirjutatud JAVA-s	Kirjutatud C ++ keeles
4	Töötlemise kiirus	Taru on aeglane	Impala on kiire
5	Latentne aeg	Kõrge	Madal
6	Salvestustugi	RC-fail, ORC	Hadoop, Apache HBase
7	Koodi teisendamine	Genereerib päringu avalduse kompileerimise ajal	Koodide genereerimine toimub töö ajal.
8	Toetab paralleelset töötlemist	Ei	Jah
9	MapReduce'i tugi	Jah	Ei
10.	Hadoopi turvalisus	Ei	Toetab Kerberose autentimist.
11	Kasutamine	Ideaalne projekti suurendamiseks	Ideaalne uue projekti alustamiseks.
12	Veatolerants	Taru on tõrketaluv.	Ei toeta rikketolerantsi.
13.	Keerukad tüübid	Taru toetab keerulisi tüüpe.	Impala ei toeta keerulisi tüüpe.
14.	Andmebaasi tüüp	Hive on pakettpõhine Hadoop MapReduce.	See on MPP andmebaas
15.	Interaktiivne infotehnoloogia	Ei toeta interaktiivset arvuti kasutamist.	Toetab interaktiivset arvuti kasutamist.
16.	Hukkamine	Taru päringul on probleem „Cold Start” -ga	Impala protsess algab alati Deemonite alglaadimise ajal.
17.	Ressursside haldamine	Lõng	Päris * lõng
18.	Jaotused	HIVE - kõik Hadoopi jaotused, Hortonworks (Tez, LLAP)	Cloudera MapR, (* Amazoni EMR)
19.	Sihtrühm	Andmeinsenerid	Andmeanalüütik / andmeteadlased
20.	Läbilaskevõime	Suur läbilaskevõime	Madal läbilaskevõime

Järeldus - taru vs Impala

Selles artiklis oleme proovinud näidata, et mis on kaks tehnoloogiat, nimelt Hive ja Impala, ning nende tehnoloogiate põhiline erinevus. Praktiliselt võime öelda, et Hive ja Impala ei ole konkurendid, sest nad mõlemad kuuluvad ühte ja samasse sihtasutusse, mida nimetatakse päringute tegemiseks MapReduce'iks. Mõlema kasutamine võib tekitada erinevuse. Vastavalt oma vajadusele saame seda kasutada koos või parimal viisil vastavalt ühilduvusele, vajadusele ja jõudlusele. Taru päringu keel on Hive QL, mis on väga mitmekülgne ja universaalne keel, samal ajal kui Impala on mälumahukas ja ei tööta hästi raskete andmeoperatsioonide töötlemisel, näiteks liitumispäringud. Kui teie projektis on töö seotud suure hulga andmete kogutöötlusega, on taru sel juhul parem ja kui teie töö on seotud andmete sihtotstarbelise päringu reaalajas toimuvaga, on Impala parem sel juhul.

Soovitatav artikkel

See on olnud juhend taru Vs Impala, nende tähenduse, pea võrdluse kohta, peamised erinevused, võrdlustabel ja järeldus. Lisateabe saamiseks võite vaadata ka järgmisi artikleid -