Spark SQL vs Presto - saate teada 7 kasulikku võrdlust

Lang L: none (table-of-contents):

Anonim

Erinevused Spark SQL vs Presto vahel

Presto on lihtsustatult 'SQL Query Engine', mis on algselt välja töötatud Apache Hadoopi jaoks. See on avatud lähtekoodiga SQL päringumootor, mis on loodud interaktiivsete analüütiliste päringute käitamiseks igas suuruses andmekogumite korral.

Spark SQL on hajutatud mälusisene arvutusmootor, mille peal on SQL-kiht struktureeritud ja poolstruktureeritud andmekogumite peal. Alates mälusisest töötlemisest toimub Spark SQL-is töötlemine kiiresti.

Spark SQL vs Presto (Infographics) võrdlus ühest otsast teise

Allpool on toodud 7 parimat võrdlust Spark SQL vs Presto vahel

Spark SQL vs Presto peamised erinevused

Allpool on loetelu Presto ja Spark SQL peamiste erinevuste kohta

  • Apache Spark tutvustab struktureeritud andmete töötlemiseks programmeerimismoodulit Spark SQL. Spark SQL sisaldab kodeeringu abstraktsiooni nimega Data Frame, mis võib toimida hajutatud SQL päringumootorina.
  • Presto alguse ajendiks oli interaktiivse analüüsi ja lähenemisviiside võimaldamine äriandmete ladude kiirusele, võimaldades muuta Facebooki vastavate organisatsioonide suurust.
  • Kui Spark SQL on komponent Spark Core peal, mis tutvustab uut andmete abstraktsiooni nimega SchemaRDD (Resilient Distributed Datasets), pakub see tuge struktureeritud / poolstruktureeritud andmete jaoks.
  • Presto loodi alternatiivina tööriistadele, mis pärivad HDFS-i andmeid MapReduce'i töid kasutades nagu Hive või Pig, kuid Presto ei piirdu HDFS-iga.
  • Spark SQL järgib mälust töötlemist, mis suurendab töötlemise kiirust. Spark on mõeldud paljude töökoormuste töötlemiseks, näiteks pakkide päringud, iteratiivsed algoritmid, interaktiivsed päringud, voogesitus jne.
  • Presto on võimeline täitma föderaalseid päringuid. Allpool on näide Presto liitpäringutest

Eeldame, et tabelis 1 on RDBMS

Ja HIVE koos tabeli näidisega2,

'Testdb' on nii tarus kui ka MYSQL-is asuv andmebaas. Presto abil saame andmeid ühe päringuga hinnata, kui nende pistikud on õigesti konfigureeritud, nagu allpool näidatud -

presto> hive.Testdb.sample2

Funktsioon (valige / Rühmita ..etc järgi)> mysql.Testdb.sample1

  • Spark SQL arhitektuur koosneb Spark SQL-ist, skeemi RDD-st ja andmeraamistikust
    • Andmeraam on andmete kogum; andmed on jaotatud nimetatud veergudeks. Tehniliselt on see sama mis relatsiooniliste andmebaaside tabelitega.
    • Skeem RDD: Spark Core sisaldab spetsiaalset andmestruktuuri, mida nimetatakse RDD. Spark SQL töötab skeemide, tabelite ja kirjete alusel. Seetõttu saab kasutaja kasutada skeemi RDD ajutise tabelina. Nii et kasutaja saab seda skeemi RDD nimetada andmeraamiks
  • Andmeraami võimalused: andmeraam töötleb ühe sõlme klastris andmeid kilobaitide ja petabaitide kaupa mitme sõlme klastriteks,
  • Andmeraam toetab erinevaid andmevorminguid (CSV, Flexiblesearch, Cassandra jne) ja salvestussüsteeme (HDFS, HIVE tabelid, MySQL jne). Seda saab integreerida kõigi Big Data tööriistade / raamistikega Spark-Core'i kaudu ja pakub API-sid selliste keelte jaoks nagu Python, Java, Scala ja R programmeerimine.
  • Kui Presto on hajutatud mootor, töötab klastri seadistusel. Presto arhitektuur on lihtsasti mõistetav ja laiendatav. Presto klient (CLI) edastab SQL-i väljavõtteid deemoni ülemkoordinaatorile, kes haldab töötlemist.
  • Presto kasutavad ettevõtted: Facebook, Netflix, Airbnd, Dropbox jne.
  • Apache Sparki kasutamise juhtumeid võib leida sellistes tööstusharudes nagu rahandus, jaemüük, tervishoid ja reisimine jne. Paljud e-kaubanduse veebisaidid, näiteks eBay, Alibaba, Pinterest, kasutavad Spark SQL-i, et analüüsida sadu petabaite andmeid oma e-poe platvormil.

Võrdluste tabel Spark SQL vs Presto

Allpool on SQL vs Presto ülim võrdlus

SQL ja Presto võrdlusalused Presto Spark SQL
Ökosüsteemid / platvormidHadoop, suurandmete töötlemine jneSpark Framework, suurandmete töötlemine jne
EesmärkPresto on mõeldud SQL-päringute käitamiseks suurandmete (tohutu töökoormuse) kaudu.
Selle kavandas Facebook nende tohutu töökoormuse töötlemiseks.
Spark SQL on üks Apache Spark Core komponente.
Spark Core on sädeplatvormi peamine täitemootor
Seadista
  • Presto on hajutatud SQL päringumootor lemmikloomade baitide töötlemiseks ja see töötab klastris nagu masinate komplekt.
  • Presto klastri täielik seadistus hõlmab koordinaatorit (haldurisõlme) ja mitut töötajat. Kasutaja esitab Presto CLI-st pärit kliendi päringud koordinaatorile. Koordinaator parsib, analüüsib ja kavandab päringu täitmise ning seejärel jagab ta päringu töötlemise töötajatele.
  • Spark SQL-i seadistamine jääb välja, kui installite ja konfigureerite Apache Spark Cluster
  • Apache Spark on Hadoopi allprojekt.
  • Apaches Spark on klastripõhine suurandmete töötlemise tehnoloogia, mis on loodud kiireks arvutamiseks.
Võimed / omadusedPresto võimaldab andmete päringut paljude andmeallikate kaudu; Näiteks võivad andmed asuda andmehoidlates: Hive, Cassandra, RDBMS ja mõnes muus konfidentsiaalsetes andmehoidlates.Spark SQL võimaldab paindlikkust integreerimisel teiste andmeallikatega, kasutades andmeraame ja JDBC pistikuid.
Tugi konnektoritelePresto toetab pistikühendusi. Need konnektorid pakuvad päringute andmekogumeid.

Allpool on mitu presto käsutuses olevat olemasolevat konnektorit, samal ajal kui Presto pakub võimalust ühendada ka kohandatud pistikutega.
Allpool on mõned pistikud, mida see toetab

  • Hadoop / taru
  • Cassandra
  • Teradata
  • PostgreSQL
  • Oracle jne

Andmeraami liides võimaldab Spark SQL-il töötada erinevatel andmeallikatel.
Spark SQL sisaldab serverirežiimi koos tööstusstandardite JDBC ja ODBC ühenduvusega.
LiitpäringudPresto toetab ühendatud päringuid. Presto saab konfigureerida ühenduse loomiseks erinevate DB-dega ja üks kord konfigureerida; selle CLI-d saab kasutada liitpäringute käivitamiseks.
Ühes Presto päringus saab kasutaja ühendada mitmest andmeallikast pärit andmeid ja käitada päringu.
Spark SQL sisaldab sisseehitatud funktsiooni, mis võimaldab luua ühenduse teiste andmebaasidega, kasutades selleks JDBC-d, mis on “JDBC teistesse andmebaasidesse”. See aitab föderatsiooni funktsiooni.
Spark loob andmeraamid JDBC: andmebaasi funktsiooni abil, võimendades scala / python API-d, kuid see töötab ka otse Spark SQL Thrift serveriga ja võimaldab kasutajatel hõlpsalt küsida väliseid JDBC-tabeleid nagu teised taru / sädetabelid.
Kes kasutab?Andmeanalüütikud, andmeinsenerid, andmeteadlased jneAndmeanalüütikud, andmeinsenerid, andmeteadlased, Spark Developer jne

Järeldused - SQL SQL vs Presto

Spark SQL ja Presto - mõlemad on turul saadaolevad SQL-i mootorid.

Presto on BI-tüüpi päringute tegemisel väga kasulik ja Spark SQL juhib suurtes analüüsipäringutes jõudlust. Kui võrrelda konfiguratsiooni, siis oli Presto seadistamine lihtne kui Spark SQL. Nii Spark SQL kui ka Presto seisavad võrdselt turul ja lahendavad teistsuguseid äriprobleeme.

Soovitatav artikkel

See on olnud Spark SQL vs Presto juhend, nende tähendus, pea võrdlus, peamised erinevused, võrdlustabel ja järeldus. Lisateabe saamiseks võite vaadata ka järgmisi artikleid -

  1. Apache Spark vs Apache Flink - 8 kasulikku asja, mida peate teadma
  2. Apache taru vs Apache Spark SQL - 13 hämmastavat erinevust
  3. 6 parimat võrdlust Hadoop Vs SQL vahel
  4. Hadoop vs Teradata - suured erinevused