Sissejuhatus tarude alternatiividesse

Enne kui arutame HIVE alternatiivide üle. Saame kõigepealt aru, mis on taru? Niisiis, HIVE on põhimõtteliselt andmete ladustamise tööriist, mis on välja töötatud HDFS (Hadoopi hajutatud failisüsteem) peal. Seda kasutatakse SQL-i moodi päringuliidese andmiseks päringuandmetele, mida hoitakse Hadoopiga integreeritud erinevates failides. See teisendab SQL-i päringud Map Reduce tööks, mis aitab suurte andmemahtude hõlpsat täitmist.

Funktsioonid

Allpool on mõned taru omadused:

  • Nagu SQL-l, on ka sellel oma deklaratiivne keel HiveQL.
  • Selle tabeli struktuur sarnaneb relatsiooniandmebaasi tabelitega ja pakub ka ETL-i (väljavõte / tugi / laadimine) tuge.
  • Huvitav omadus on see, et see võimaldab vormingu teisendamist taru sees.

Tarude alternatiivide piiramine

Teame taru mõnda piirangut:

  • See ei ole mõeldud OLTP-le (Online Transaction Processing), kuid toetab OLAP-i (Online Analytical Processing).
  • Üks oluline piirang on see, et see ei toeta värskendusi ja kustutab.
  • Tarus ei toetata ka subklaave.

5 olulist tarude alternatiivi

Allpool käsitleme HIVE viit olulist turul pakutavat alternatiivi:

1. Apache Impala

See on avatud lähtekoodiga paralleelselt töötav SQL päringumootor Apache Hadoopi käitavas arvutiklastris talletatud andmete jaoks. See kuulutati välja oktoobris 2012. Allpool on toodud HIVE alternatiivina Apache Impala olulisemad omadused.

  • Impala on hea valik inimestele, kes käitavad SQL-i päringuid Hadoopis ja Apache HBase-is ilma andmeid teisendamata, kuna erinevalt HIVE-st pole seda vaja teisendada ega teisaldada.
  • Teine erinevus nende kahe vahel on päringulausete genereerimine. Impala genereerib need käitusajal llvm abil, HIVE genereerib need kompileerimise ajal.
  • Taru päringutel on külmkäivituse probleem, mis Impala päringute puhul ei kehti, kuna Impala deemoni protsessid käivitatakse alglaadimise ajal, mis on alati valmis päringut töötlema, mistõttu väldib külmkäivituse probleemi.
  • Impala tunneb ära Hadoopi failivormingud, Hadoopi turvalisuse, ODBC draiveri.
  • Impala peamine USP on paralleelse töötlemise julm jõud. Niisiis, Impala on parem alternatiiv, kui keegi alustab uut projekti.

2. Presto DB

Presto on HIVE-i jaoks veel üks alternatiiv, mille on välja töötanud facebook. Selle USP on see, et see võib ühe päringu käigus päringuid teha isegi mitmest allikast pärit andmete kohta. Allpool on toodud HET-i alternatiivina PrestoDB-i olulisemad omadused.

  • Presto on mällus levitatav SQL päringumootor, mis on ka väga kiire, kuna Presto päringumootor on kiire ja sobib hästi interaktiivseks analüüsiks.
  • Presto USP teiste ees on selle erinevate andmeallikatega plug and play mudel. Selle plug-and-play-mudeli tõttu on presto abil päringute ühendamine eri andmeallikate vahel väga lihtne.
  • Presto väikeste mõõtmetega liitumislauad on tehtud kiiremini. Presto paistab silma enamiku teiste hajutatud päringumootoritega.
  • Presto ei sobi suurte faktiliste liitumiste jaoks, kuna see ei võimenda ketast ega kasuta töötlemiseks mälu.
  • Presto jaoks on veel üks oluline punkt ressursside eraldamine. Sellel on prioriteetsetel järjekordadel põhinev ressursijaotus.
  • Presto hea jõudluse üheks kompromissiks on see, et UDF-i tugi pole Presto-s saadaval, mistõttu tuleb kirjutada oma funktsioon, mis suurendab üldkulusid, kuna see tuleb ehitada ainult presto jaoks ja takistab koostalitlusvõimet.

3. Spark SQL

See on moodul ka struktureeritud andmetöötluseks ja ka avatud lähtekoodiga. See võib toimida ka hajutatud SQL päringumootorina ja selle ainulaadne osa on ka programmeerimise abstraktsioon, mida nimetatakse andmeraamideks. See ilmus esmakordselt 2014. aastal Apache Tarkvara Sihtasutuse välja töötatud. Allpool on toodud mõned Spark SQL-i olulised funktsioonid alternatiivina HIVE-le.

  • Spark SQL-i hea külg on see, et seda saab rakendada Java, Scala, Python ja R keeles, samas kui HIVE saab rakendada Java keeles.
  • Esmases andmebaasi mudelis on HIVE ja Spark täielikult sarnased, kuna mõlemad primaarse andmebaasi mudelid on relatsiooniline DBMS.
  • See sarnaneb ka HIVE-ga, kuna mõlemad toetavad Key-Value poodi täiendava andmebaasimudelina.
  • Sellel on eelnevalt määratletud andmetüübid, näiteks ujuk ja kuupäev.
  • See toetab SQL-i, kuna sellel on DML- ja DDL-avaldused.
  • Erinevalt HIVE-st, mis toetab JDBC, ODBC ja Thrift, toetab Spark SQL ainult JDBC ja ODBC.
  • Spark SQL kasutab sädemetuuma andmete salvestamiseks erinevatesse sõlmedesse.
  • Teine oluline erinevus sädeme ja HIVE vahel on replikatsioonimeetodid: HIVE-s on valikuline replikatsioonifaktor koondatud andmete salvestamiseks mitmele sõlmele, kuid Spark SQL-is pole replikatsioonifaktor saadaval.
  • Spark SQL-is pole kasutajatel juurdepääsuõigusi, samas kui Apache Hive'is on meil juurdepääsuõigused kasutajatele, gruppidele.
  • See ei toeta tehingustabelit ja char-tüüpi tuge.

4. Hai

See on avatud lähtekoodiga SQL päringumootor, mis on kirjutatud Scalas. Sharki huvitav fakt on see, et selle asemel, et kasutada Map-Reduce'i oma päringute tegemiseks, kasutab ta oma töötajate sõlmede komplekte. Allpool on mõned Sharki funktsioonid:

  • See kasutab käsurida klienti.
  • See pakub skeemide jagamiseks koostalitlusvõimet Hive'iga.
  • See pakub olemasolevaid taru laiendusi, näiteks UDF-e.

See pole veel eriti kuulus, kuid pakub alternatiivi HIVE-le.

5. IBMi BigSQL

Seda pakub Big Blue (IBM). IBM-il on oma Hadoopi jaotus nimega Big Insights. Nii pakutakse Big SQL-i selle osana. See pole avatud lähtekoodiga, kuna seda pakub IBM. Mõned nende pakutavad asjad on järgmised:

  • Nad toetavad nii JDBC kui ka OJDBC draivereid.
  • Nad pakuvad SQL-i tuge
  • Neid saab kasutada HDFS-i andmete pärimiseks.

Soovitatavad artiklid

See on taru alternatiivide juhend. Siin käsitleme funktsioone, piiranguid ja 5 olulist taru alternatiivi. Lisateavet leiate ka meie muudest seotud artiklitest -

  1. Hadoopi alternatiivid
  2. Tableau alternatiivid
  3. Google Analyticsi alternatiivid
  4. Hadoopi voogesitus
  5. Taru tellija
  6. Tarude paigaldamine
  7. Andmeraamid R-s

Kategooria: