Mis on taru?

Apache Hive on avatud lähtekoodiga Hadoopi platvormile loodud andmelaosüsteem, mida kasutatakse andmete kokkuvõtmiseks, suurandmete päringute tegemiseks, andmete analüüsimiseks jne.

Taru töötas välja Facebook ja hiljem võttis selle üle Apache Tarkvara Sihtasutus, kes arendas seda edasi avatud lähtekoodina Apache Hive nime all.

Definitsioon:

See ei ole relatsiooniandmebaas ja seetõttu ei sobi see veebitehingute töötlemiseks ja reaalajas päringute tegemiseks rea tasemel värskendustega. Taru on loodud veebipõhiseks analüütiliseks töötlemiseks või OLAP-i jaoks. See pakub ka päringkeelt nimega HiveQL. See on skaleeritav, kiire ja laiendatav. See teisendab peaaegu SQL-vormingus päringud MapReduce-töödeks, et hõlpsalt teostada ja töödelda suurt hulka andmeid. Apache taru on üks Hadoopi komponente, mida tavaliselt kasutavad andmeanalüütikud, samas kui apache sea kasutatakse ka sama ülesande jaoks, kuid seda kasutavad rohkem teadlased ja programmeerijad. Apache taru, mis on avatud lähtekoodiga andmelaondussüsteem, kasutatakse Hadoopi salvestusse salvestatud tohutute andmekogumite päringute tegemiseks ja analüüsimiseks. Taru sobib kõige paremini pakkimistööde jaoks, mitte veebipõhiste tehingutöötlustööde jaoks. Samuti ei toeta see reaalajas päringuid. Taru kasutab SQL-i päringikeelt ja seda kasutatakse peamiselt aruannete loomiseks. Taru on tavaliselt serveripoolne ja see toetab struktureeritud andmeid. Hive toetab ka integreerimist JDBC ja BI tööriistadega.

Taru mõistmine:

Allpool on taru peamised komponendid:

Meta pood:

Andmehoidlaid, mis salvestab metaandmeid, nimetatakse taru metapoeks. Metaandmed koosnevad erinevatest andmetest tabelite kohta, näiteks nende asukoht, skeem, teave partitsioonide kohta, mis aitab jälgida klastris erinevalt levivate andmete arengut. Samuti jälgib see andmeid ja kopeerib andmeid, mis pakub varukoopiaid selliste hädaolukordade korral nagu andmete kadumine. Metaandmete teave on olemas relatsioonandmebaasides ja mitte Hadoopi failisüsteemis.

Juht:

Hive päringu keeleväljavõtte täitmisel saab draiver selle väljavõtte ja kontrollib seda kogu täitmistsükli vältel. Koos avalduse täitmisega salvestab draiver ka täitmisel loodud metaandmed. Samuti loob see seansse erinevate hukkamiste käigu ja elutsükli jälgimiseks. Pärast redigeerimise lõpetamist MapReduce'i töö abil kogub draiver kõik päringu andmed ja tulemused

Koostaja:

Seda kasutatakse taru päringu keele tõlkimiseks MapReduce'i sisendisse. See kutsub esile meetodi, mis viib ellu HiveQL-i väljundi lugemiseks vajalikke samme ja ülesandeid vastavalt MapReduce'ile.

Optimeerija:

Optimeerija põhiülesanne on efektiivsuse ja mastaapsuse parandamine, luues ülesande, samal ajal kui nad muudavad andmeid enne operatsiooni vähendamist. See teostab ka selliseid teisendusi nagu liitmine, torujuhtme teisendamine ühe liitumisega mitme liitumise jaoks.

Teostaja:

Pärast kompilatsiooni ja optimeerimise sammu on täituri peamine ülesanne ülesannete täitmine. Täituri põhiülesanne on suhelda Hadoopi tööotsijaga, et koostada tööks valmis tööülesandeid.

Kasutajaliides, säästusserver ja CLI:

Teised kliendid kasutavad säästusserverit Hive mootoriga suhtlemiseks. Kasutajaliides ja käsuribaliides aitavad nii päringuid kui ka protsessi jälgimist ja juhiseid esitada, et välised kasutajad saaksid taruga suhelda.

Allpool on toodud sammud, kus näidatakse taru koostoimet Hadoopi raamistikuga:

Päringu täitmine:

Päring saadetakse draiverile taru liidestest nagu käsurida või veebi kasutajaliides. Draiveriks võib olla ükskõik milline andmebaasi draiver, näiteks JDB või ODBC jne.

Plaani saamine:

Päringu või päringukava nõude süntaksit saab kontrollida päringu läbinud ja draiveri poolt käivitatava päringukompilaatori abil.

Metaandmete hankimine:

Metapood võib asuda mis tahes andmebaasis ja koostaja esitab metaandmetele juurdepääsu taotluse.

Metaandmete saatmine:

Koostaja nõudmisel saadab metapood metaandmed.

Kava saatmine:

Kompilaator saadab plaani juhile kompilaatori saadetud nõuete kontrollimisel. See samm viib päringu parsimise ja koostamise lõpule.

Plaani täitmine:

Juht saadab täitmisplaani täitmismootorile.

Töö täitmine:

Töö käivitamine on MapReduce'i töö, mis töötab taustprogrammis. Siis järgib see Hadoopi raamistiku tavapärast tava - täitmismootor saadab töö nimesõlmel asuvale tööjälgijale ja nimesõlm omakorda määrab töö ülesandejälgijale, mis on andmetes. MapReduce'i töö teostatakse siin.

Metaandmed ops:

Töö teostamise ajal saab täitmismootor metaandmetega toiminguid täita metapoodiga.

Tulemuse toomine:

Pärast töötlemise lõpuleviimist andmesõlmed edastatakse tulemus täitemootorile.

Tulemuse saatmine

Juht saab tulemuse täitmismootorilt.

Saatmise tulemus:

Lõpuks saavad taru liidesed draiverilt tulemuse.

Seega toimub ülaltoodud sammude täitmisega tarus täielik päringu täitmine.

Kuidas muudab taru töötamise nii lihtsaks?

Hive on Hadoopi peal üles ehitatud andmelaoraamistik, mis aitab kasutajal andmete analüüsimisel, päringute tegemisel ja andmete kokkuvõtmisel suure hulga andmekogumite korral. HiveQL on ainulaadne funktsioon, mis näeb välja nagu andmebaasi salvestatud SQL-andmed ja teostab põhjalikku analüüsi. Olin võimeline lugema andmeid väga suure kiirusega ja kirjutama andmeid andmeladudesse, samuti oskasin hallata suuri asukohtade vahel paiknevaid andmekogumeid. Koos selle taruga pakub ka andmebaasis talletatud andmete struktuuri ja kasutajatel on taruga ühenduse loomiseks käsurida või JDBC draiverit.

Parimad ettevõtted:

Tarud on tarnitud suuremates andmetes töötavates organisatsioonides - näiteks facebook, Amazon, Walmart ja paljud teised.

Mida saate Taruga teha?

Tarus on palju funktsioone, näiteks andmete päring, andmete kokkuvõte ja andmete analüüs. Taru toetab päringkeelt HiveQL või Hive Query Language. Taru päringu keelepäringud tõlgitakse MapReduce'i töösse, mida töödeldakse Hadoopi klastris. Peale selle vähendab Hiveql ka skripte, mida saab päringutesse lisada. Sel viisil suurendab HiveQL skeemi kujundamise paindlikkust, mis toetab ka andmete väärtustamist ja seerialiseerimist.

Taruga töötamine:

Allpool on mõned taru toimimise üksikasjad. Tarutüübid jaotatakse laias laastus nelja tüüpi vastavalt allpool toodud kirjeldusele:

  • Veergude tüübid
  • Kirjandus
  • Nullväärtused
  • Keerukad tüübid

1. Veergude tüübid:

Need on taru veeru andmetüübid. Need on klassifitseeritud järgmiselt:

  • Integritüübid: täisarvu andmeid esitatakse integraaltüübi abil. Sümbol on INT. Kõigile INT ülempiiri ületavatele andmetele tuleb määrata BIGINT andmetüüp. Samamoodi tuleb INTi alampiirist madalamatele andmetele määrata VÄIKE. On veel üks andmetüüp nimega TINYINT, mis on isegi väiksem kui SMALLINT.
  • Stringitüübid: Stringi andmetüüpi tähistatakse tarus ühe pakkumise (') või topeltjutumärkidega ("). See võib olla kahte tüüpi - VARCHAR või CHAR.
  • Ajatempel: tarude ajatempel toetab java.sql.Timemustri formaat “aaaa-kk-pp ht: mm: ss.ffffffffff” ja formaat “AAAA-KK-PP-PP: PP: MM: SS.fffffffff”.
  • Kuupäev: kuupäev tarus on esitatud kujul AAAA-KK-PP, mis tähistab aastat-kuud-päeva.
  • Komakohad : taru kümnendkohad esitatakse java suurde komavormingus ja neid kasutatakse muutumatu suvalise täpsuse tähistamiseks. See on esitatud formaadis Decimal (täpsus, skaala).
  • Liidu tüübid: tarus kasutatakse liitu heterogeense andmetüübi kogu loomiseks. Selle saab luua ühenduse loomise abil.

Allpool on näide:

UNIONTYPE
(0:1)
(1:2.0)
(2:("three", "four"))
(3:("a":5, "b":"five"))
(2:("six", "seven"))
(3:("a":8, "b":"eight"))
(0:9)
(1:10.0)
UNIONTYPE
(0:1)
(1:2.0)
(2:("three", "four"))
(3:("a":5, "b":"five"))
(2:("six", "seven"))
(3:("a":8, "b":"eight"))
(0:9)
(1:10.0)

2. Kirjandus:

Tarus kasutatakse vähe tähemärke. Need on järgmised:

  • Ujukoma tüüp : neid tähistatakse komakohaga arvuga. Need on üsna sarnased topelt andmetüübiga.
  • Kümnendarv : seda tüüpi andmed sisaldavad ainult kümnendtüübi andmeid, kuid nende ujukoma väärtus on suurem kui topeltandmetüüp. Koma tüübi vahemik on ligikaudne -10 -308 kuni 10 308.

3. Nullväärtus:

Eriväärtus NULL tähistab tarus puuduvaid väärtusi.

4. Komplekssed tüübid:

Allpool on tarust leitud erinevad keerulised tüübid:

  • Massiivid : Massiivid on tarus samal kujul kui java. Süntaks on nagu ARRAY.
  • Kaardid : kaardid on tarus samal kujul kui java. Süntaks on nagu MAP
  • .
  • Struktuurid : tarus olevad strükid on esitatud nagu keerukad andmed koos kommentaaridega. Süntaks on nagu STRUCT.

Lisaks kõigile neile saame luua andmebaase, tabeleid, neid osadeks jagada ja palju muid funktsioone.

  • Andmebaasid: need on nimeruumid, mis sisaldavad tabelite kogumit. Allpool on süntaks tarus andmebaasi loomiseks.

CREATE DATABASE (IF NOT EXISTS) sampled;

Andmebaasid saab ka maha jätta, kui neid enam pole vaja. Allpool on andmebaasist loobumise süntaks.

DROP DATABASE (IF EXISTS) sampled;

  • Lauad: neid saab tarus luua ka andmete salvestamiseks. Allpool on toodud tabeli loomise süntaks.

CREATE (TEMPORARY) (EXTERNAL) TABLE (IF NOT EXISTS) (db_name.) table_nam
((col_name data_type (COMMENT col_comment), …)) (COMMENT table_comment
(ROW FORMAT row_format) (STORED AS file_format)

Laua võib maha kukkuda ka siis, kui seda enam pole vaja. Allpool on toodud tabeli langemise süntaks.

DROP TABLE (IF EXISTS) table_name;

Eelised

Apache Hive'i peamine eelis on andmete päring, kokkuvõte ja analüüs. Taru on mõeldud arendaja paremaks tootlikkuseks ning sellega kaasnevad ka latentsuse suurendamise ja efektiivsuse vähendamise kulud. Apache Hive pakub laias valikus kasutaja määratletud funktsioone, mida saab siduda teiste Hadoopi pakettidega nagu RHipe, Apache Mahout jne. See aitab arendajaid suurel määral keeruka analüütilise töötlemise ja mitmete andmevormingutega töötamisel. Seda kasutatakse peamiselt andmete ladustamiseks, mis tähendab aruandluseks ja andmete analüüsiks kasutatavat süsteemi.

See hõlmab andmete puhastamist, transformeerimist ja modelleerimist, et saada kasulikku teavet mitmesuguste äriaspektide kohta, mis aitab organisatsioonile kasu tuua. Andmeanalüüs on palju erinevaid aspekte ja lähenemisviise, mis hõlmavad erinevaid tehnikaid ja erinevaid nimesid erinevates ärimudelites, ühiskonnaõpetuse valdkondades jne. Taru on palju kasutajasõbralik ja võimaldab kasutajatel samaaegselt juurdepääsu andmetele, suurendades reageerimisaega. Võrreldes tohutute andmekogumite teist tüüpi päringutega, on taru reageerimise aeg teistest palju kiirem. See on jõudluse osas ka palju paindlik, kui lisate rohkem andmeid ja suurendate klastris olevate sõlmede arvu.

Miks peaksime Taru kasutama?

Koos andmeanalüüsiga pakub taru mitmesuguseid võimalusi andmete HDFS-i salvestamiseks. Taru toetab erinevaid failisüsteeme nagu tasane fail või tekstifail, kahendfail, mis koosneb binaarsetest võtme-väärtuse paaridest, RC-failid, mis salvestavad tabeli veeru veeru andmebaasis. Tänapäeval tuntakse taru jaoks kõige sobivamat faili kui ORC-faile või optimeeritud reasamba faile.

Miks me Taru vajame?

Tänapäeva maailmas on Hadoop seotud kõige levinumate tehnoloogiatega, mida kasutatakse suurandmete töötlemiseks. Väga rikkalik tööriistade ja tehnoloogiate kogu, mida kasutatakse andmete analüüsimiseks ja muuks suurandmete töötlemiseks.

Kes on tarkade tehnoloogiate õppimiseks sobiv publik?

Taru valdavad peamiselt arendajate, Hadoopi analüütikute, süsteemiadministraatorite, andmete ladustamise, SQL Professionali ja Hadoopi administratsiooni taustaga inimesed.

Kuidas see tehnoloogia aitab teid karjääri kasvamisel?

Taru on tänapäeval üks populaarsemaid oskusi turul ja see on üks parimatest andmeanalüüsi tööriistadest Hadoopi suurandmete maailmas. Suurte andmekogumite analüüsimisega tegelevad suurettevõtted otsivad alati oskustega õigustega inimesi, et nad saaksid hallata ja päringuid tohutult hulgast andmetest. Taru on viimastel päevadel üks parimatest suurandmete tehnoloogia turul pakutavatest tööriistadest, mis võib aidata organisatsiooni kogu maailmas nende andmete analüüsimisel.

Järeldus:

Lisaks ülaltoodud funktsioonidele on tarul palju täiuslikumad võimalused. Taru jõud suure hulga andmekogumite suure täpsusega töötlemiseks muudab taru üheks parimaks tööriistaks, mida kasutatakse suures andmeplatvormis analüüsi tegemiseks. Lisaks on sellel ka suur potentsiaal tõusta lähipäevil üheks juhtivaks suurandmete analüüsi tööriistaks tänu perioodilisele täiustamisele ja lõppkasutajale hõlpsaks kasutamiseks.

Soovitatavad artiklid

See on olnud teemaks Mis on taru. Siin arutasime tarude ja seda tehnoloogiat rakendavate tippettevõtete tööd, oskusi, karjääri kasvu, eeliseid. Lisateavet leiate ka meie muudest soovitatud artiklitest -

  1. Taru käsud
  2. Taru intervjuu küsimused
  3. Mis on Azure?
  4. Mis on suurandmete tehnoloogia?
  5. Taruarhitektuur | Definitsioon
  6. Funktsiooni ORDER BY kasutamine tarus

Kategooria: