Erinevused Spark SQL vs Presto vahel
Presto on lihtsustatult 'SQL Query Engine', mis on algselt välja töötatud Apache Hadoopi jaoks. See on avatud lähtekoodiga SQL päringumootor, mis on loodud interaktiivsete analüütiliste päringute käitamiseks igas suuruses andmekogumite korral.
Spark SQL on hajutatud mälusisene arvutusmootor, mille peal on SQL-kiht struktureeritud ja poolstruktureeritud andmekogumite peal. Alates mälusisest töötlemisest toimub Spark SQL-is töötlemine kiiresti.
Spark SQL vs Presto (Infographics) võrdlus ühest otsast teise
Allpool on toodud 7 parimat võrdlust Spark SQL vs Presto vahel
Spark SQL vs Presto peamised erinevused
Allpool on loetelu Presto ja Spark SQL peamiste erinevuste kohta
- Apache Spark tutvustab struktureeritud andmete töötlemiseks programmeerimismoodulit Spark SQL. Spark SQL sisaldab kodeeringu abstraktsiooni nimega Data Frame, mis võib toimida hajutatud SQL päringumootorina.
- Presto alguse ajendiks oli interaktiivse analüüsi ja lähenemisviiside võimaldamine äriandmete ladude kiirusele, võimaldades muuta Facebooki vastavate organisatsioonide suurust.
- Kui Spark SQL on komponent Spark Core peal, mis tutvustab uut andmete abstraktsiooni nimega SchemaRDD (Resilient Distributed Datasets), pakub see tuge struktureeritud / poolstruktureeritud andmete jaoks.
- Presto loodi alternatiivina tööriistadele, mis pärivad HDFS-i andmeid MapReduce'i töid kasutades nagu Hive või Pig, kuid Presto ei piirdu HDFS-iga.
- Spark SQL järgib mälust töötlemist, mis suurendab töötlemise kiirust. Spark on mõeldud paljude töökoormuste töötlemiseks, näiteks pakkide päringud, iteratiivsed algoritmid, interaktiivsed päringud, voogesitus jne.
- Presto on võimeline täitma föderaalseid päringuid. Allpool on näide Presto liitpäringutest
Eeldame, et tabelis 1 on RDBMS
Ja HIVE koos tabeli näidisega2,
'Testdb' on nii tarus kui ka MYSQL-is asuv andmebaas. Presto abil saame andmeid ühe päringuga hinnata, kui nende pistikud on õigesti konfigureeritud, nagu allpool näidatud -
presto> hive.Testdb.sample2
Funktsioon (valige / Rühmita ..etc järgi)> mysql.Testdb.sample1
- Spark SQL arhitektuur koosneb Spark SQL-ist, skeemi RDD-st ja andmeraamistikust
- Andmeraam on andmete kogum; andmed on jaotatud nimetatud veergudeks. Tehniliselt on see sama mis relatsiooniliste andmebaaside tabelitega.
- Skeem RDD: Spark Core sisaldab spetsiaalset andmestruktuuri, mida nimetatakse RDD. Spark SQL töötab skeemide, tabelite ja kirjete alusel. Seetõttu saab kasutaja kasutada skeemi RDD ajutise tabelina. Nii et kasutaja saab seda skeemi RDD nimetada andmeraamiks
- Andmeraami võimalused: andmeraam töötleb ühe sõlme klastris andmeid kilobaitide ja petabaitide kaupa mitme sõlme klastriteks,
- Andmeraam toetab erinevaid andmevorminguid (CSV, Flexiblesearch, Cassandra jne) ja salvestussüsteeme (HDFS, HIVE tabelid, MySQL jne). Seda saab integreerida kõigi Big Data tööriistade / raamistikega Spark-Core'i kaudu ja pakub API-sid selliste keelte jaoks nagu Python, Java, Scala ja R programmeerimine.
- Kui Presto on hajutatud mootor, töötab klastri seadistusel. Presto arhitektuur on lihtsasti mõistetav ja laiendatav. Presto klient (CLI) edastab SQL-i väljavõtteid deemoni ülemkoordinaatorile, kes haldab töötlemist.
- Presto kasutavad ettevõtted: Facebook, Netflix, Airbnd, Dropbox jne.
- Apache Sparki kasutamise juhtumeid võib leida sellistes tööstusharudes nagu rahandus, jaemüük, tervishoid ja reisimine jne. Paljud e-kaubanduse veebisaidid, näiteks eBay, Alibaba, Pinterest, kasutavad Spark SQL-i, et analüüsida sadu petabaite andmeid oma e-poe platvormil.
Võrdluste tabel Spark SQL vs Presto
Allpool on SQL vs Presto ülim võrdlus
SQL ja Presto võrdlusalused | Presto | Spark SQL |
Ökosüsteemid / platvormid | Hadoop, suurandmete töötlemine jne | Spark Framework, suurandmete töötlemine jne |
Eesmärk | Presto on mõeldud SQL-päringute käitamiseks suurandmete (tohutu töökoormuse) kaudu. Selle kavandas Facebook nende tohutu töökoormuse töötlemiseks. | Spark SQL on üks Apache Spark Core komponente. Spark Core on sädeplatvormi peamine täitemootor |
Seadista |
|
|
Võimed / omadused | Presto võimaldab andmete päringut paljude andmeallikate kaudu; Näiteks võivad andmed asuda andmehoidlates: Hive, Cassandra, RDBMS ja mõnes muus konfidentsiaalsetes andmehoidlates. | Spark SQL võimaldab paindlikkust integreerimisel teiste andmeallikatega, kasutades andmeraame ja JDBC pistikuid. |
Tugi konnektoritele | Presto toetab pistikühendusi. Need konnektorid pakuvad päringute andmekogumeid.
Allpool on mitu presto käsutuses olevat olemasolevat konnektorit, samal ajal kui Presto pakub võimalust ühendada ka kohandatud pistikutega.
| Andmeraami liides võimaldab Spark SQL-il töötada erinevatel andmeallikatel. Spark SQL sisaldab serverirežiimi koos tööstusstandardite JDBC ja ODBC ühenduvusega. |
Liitpäringud | Presto toetab ühendatud päringuid. Presto saab konfigureerida ühenduse loomiseks erinevate DB-dega ja üks kord konfigureerida; selle CLI-d saab kasutada liitpäringute käivitamiseks. Ühes Presto päringus saab kasutaja ühendada mitmest andmeallikast pärit andmeid ja käitada päringu. | Spark SQL sisaldab sisseehitatud funktsiooni, mis võimaldab luua ühenduse teiste andmebaasidega, kasutades selleks JDBC-d, mis on “JDBC teistesse andmebaasidesse”. See aitab föderatsiooni funktsiooni. Spark loob andmeraamid JDBC: andmebaasi funktsiooni abil, võimendades scala / python API-d, kuid see töötab ka otse Spark SQL Thrift serveriga ja võimaldab kasutajatel hõlpsalt küsida väliseid JDBC-tabeleid nagu teised taru / sädetabelid. |
Kes kasutab? | Andmeanalüütikud, andmeinsenerid, andmeteadlased jne | Andmeanalüütikud, andmeinsenerid, andmeteadlased, Spark Developer jne |
Järeldused - SQL SQL vs Presto
Spark SQL ja Presto - mõlemad on turul saadaolevad SQL-i mootorid.
Presto on BI-tüüpi päringute tegemisel väga kasulik ja Spark SQL juhib suurtes analüüsipäringutes jõudlust. Kui võrrelda konfiguratsiooni, siis oli Presto seadistamine lihtne kui Spark SQL. Nii Spark SQL kui ka Presto seisavad võrdselt turul ja lahendavad teistsuguseid äriprobleeme.
Soovitatav artikkel
See on olnud Spark SQL vs Presto juhend, nende tähendus, pea võrdlus, peamised erinevused, võrdlustabel ja järeldus. Lisateabe saamiseks võite vaadata ka järgmisi artikleid -
- Apache Spark vs Apache Flink - 8 kasulikku asja, mida peate teadma
- Apache taru vs Apache Spark SQL - 13 hämmastavat erinevust
- 6 parimat võrdlust Hadoop Vs SQL vahel
- Hadoop vs Teradata - suured erinevused