Sissejuhatus Hadoopi tööriistadesse

Hadoopi tööriistad on raamistik, mida kasutatakse suure hulga andmete töötlemiseks. Neid andmeid levitatakse klastris ja hajutatud arvutamine toimub. Andmeid säilitatakse plokkides suurusega 128 MB ning töötlemiseks ja tulemuse saavutamiseks kasutatakse Map Reduce'i võimsust. Traditsiooniliselt kirjutati Map ja Reduce Java keeles, kuid andmelaos töötavate ressursside omandamine oli keeruline, kuna neil polnud selles kogemust. SQL on üldtuntud ja seda on lihtne kasutada, nii et leides viisi SQL-i kirjutamiseks nagu päring, mis teisendatakse kaardiks ja vähenduseks, asutas selle Facebooki ja annetas hiljem Apache'ile, see tööriist on tuntud kui taru. Yahoo jõudis välja ka tööriista nimega Pig, mis teisendatakse rakenduses Map Reduce, samamoodi on meil Sqoop ja flume andmete liikumiseks ja süstimisriistadeks. HBase on andmebaasihaldussüsteemi tööriist.

Hadoopi tööriistade omadused

  1. Taru
  2. Siga
  3. Sqoop
  4. HBase
  5. Loomaaiatalitaja
  6. Flume

Nüüd näeme funktsioone koos lühikese selgitusega.

1. taru

Apache taru asutas Facebook ja annetas selle hiljem Apache sihtasutusele, mis on andmelao infrastruktuur. See hõlbustab SQL-i kirjutamist nagu päring nimega HQL või HiveQL. Need päringud teisendatakse sisemiselt kaardiks Vähenda töid ja töötlemiseks kasutatakse Hadoopi hajutatud arvutust. See saab töödelda andmeid, mis asuvad HDFS, S3, ja kõiki Hadoopiga ühilduvaid salvestusruume. Saame kasutada Map Reduce pakutavaid võimalusi, kui leiame Tarus midagi keerulist, rakendades seda kasutaja määratletud funktsioonides. See võimaldab kasutajal registreerida UDF-id ja kasutada neid töödes.

Taru omadused

  • Taru saab töödelda mitut tüüpi failivorminguid, nagu näiteks järjestusefail, ORC-fail, textFile jne.
  • Kiiremaks täitmiseks on saadaval jaotamine, koppimine ja indekseerimine.
  • Tihendatud andmeid saab laadida ka tarude tabelisse.
  • Hive'i silmapaistvad omadused on hallatavad või sisemised tabelid ja välised tabelid.

2. Siga

Yahoo arendas Apache Pigi täiendava tööriista Hadoopi tugevdamiseks, kuna sellel on ad hoc viis Map Reduce'i rakendamiseks. Pigil on mootor nimega Pig Engine, mis teisendab skriptid Map Reduce'i. Pig on skriptikeel, Pigile kirjutatud skriptid asuvad rakenduses PigLatin, samamoodi nagu siin Hive, saame ka funktsionaalsuse suurendamiseks UDF-sid. Siga ülesanded optimeeritakse automaatselt, nii et programmeerijad ei peaks selle pärast muretsema. Siga töötleb nii struktureeritud kui ka struktureerimata andmeid.

Siga tunnused

  • Spetsiaalset andmetöötlust saavad kasutajad omada oma funktsioonidel.
  • Sigades on koode lihtne kirjutada, ka koodi pikkus on vähem.
  • Süsteem saab täitmist automaatselt optimeerida.

3. Sqoop

Sqoopi kasutatakse andmete edastamiseks HDFS-ist RDBMS-i ja vastupidi. Saame andmeid HDFS-i tõmmata RDBMS-ist, Hive-ist jne ja töödelda ning eksportida RDBMS-i tagasi. Saame andmeid tabelisse mitu korda lisada, samuti saame luua Sqoopi töö ja teostada seda mitu korda.

Sqoopi omadused

  • Sqoop saab kõik tabelid korraga HDFS-i importida.
  • Saame manustada nii SQL-päringuid kui ka andmete impordi tingimusi.
  • Saame andmeid tarusse importida, kui HDFS-is on tabel.
  • Kaardistajate arvu saab kontrollida, st paralleelset täitmist saab kontrollida, määrates kaardistajate arvu.

4. HBase

HDFS peal olevat andmebaasihaldussüsteemi nimetatakse HBase. HBase on NoSQL andmebaas, mis on välja töötatud HDFS peal. HBase ei ole relatsiooniandmebaas, see ei toeta struktureeritud päringkeeli. HBase kasutab HDFS-i hajutatud töötlemist. Sellel võib olla suuri tabeleid miljonite ja miljonite kirjetega.

HBase omadused

  • HBase pakub skaleeritavust nii lineaarselt kui ka modulaarselt.
  • JAVA-s olevaid API-sid saab kasutada kliendi juurdepääsu jaoks.
  • HBase pakub kesta päringute täitmiseks.

5. Loomaaednik

Apache loomapidaja on tsentraliseeritud konfiguratsiooni hooldamise teenus, see hoiab arvet teabe üle, nimetades, pakub ka hajutatud sünkroonimis- ja grupiteenuseid. Loomaaednik on tsentraliseeritud hoidla, mida hajutatud rakendused kasutavad selle kohta andmete kogumiseks ja hankimiseks. See aitab ka sõlmede haldamisel, st klastrisse astumiseks või sõlme jätmiseks. See pakub väga usaldusväärset andmeregistrit, kui väheseid sõlmedest pole.

Loomaaiapidaja omadused

  • Jõudlust saab suurendada, jaotades ülesandeid, mis saavutatakse, lisades rohkem masinaid.
  • See peidab levitamise keerukust ja kujutab ennast ühe masina kujul.
  • Mõne süsteemi rike ei mõjuta kogu süsteemi, kuid selle puuduseks võib olla osaline andmete kadu.
  • See pakub aatomit, st tehing on kas edukas või ebaõnnestunud, kuid mitte ebatäiuslikus olekus.

6. Flume

Apache Flume on tööriist, mis pakub andmete sisselogimist, mis suudab koguda, koondada ja transportida tohutul hulgal andmeid erinevatest allikatest HDFS-i, HBase'i jne. Flume on väga usaldusväärne ja konfigureeritav. Selle eesmärk oli voogesituse voogesituse või sündmuse andmete voogesitamine HDFS-i, nt vidistamisandmed HDFS-i. Flume võib andmeid salvestada mis tahes tsentraliseeritud andmehoidlatesse, näiteks HBase / HDFS. Kui on olukord, kus andmete tootmine on kiirem kui andmete kirjutamise kiirus, toimib flume vahendajana ja tagab andmete voogude ühtlase toimimise.

Flume'i omadused

  • See võib neelata veebiserverite andmeid koos sündmuste andmetega, nagu näiteks andmed sotsiaalmeediast.
  • Flumetehingud on kanalipõhised, st säilitatakse kaks sõnumit, üks saatmiseks ja teine ​​vastuvõtmiseks.
  • Horisontaalne skaleerimine on flume'is võimalik.
  • See on väga veatu tolerants, kuna kontekstuaalne marsruutimine on flume.

Järeldus - Hadoopi tööriistad

Selles artiklis oleme õppinud tundma mõnda Hadoopi tööriista ja seda, kuidas need on andmemaailmas kasulikud. Oleme näinud taru ja siga, mida kasutatakse päringute tegemiseks ja andmete analüüsimiseks, sqoopi andmete teisaldamiseks ja voogesituse andmete HDFS-i sissevõtmiseks.

Soovitatavad artiklid

See on olnud Hadoopi tööriistade juhend. Siin käsitleme Hadoopi erinevaid tööriistu nende funktsioonidega. Lisateavet leiate ka meie muudest soovitatud artiklitest -

  1. Hadoopi alternatiivid
  2. Hadoopi andmebaas
  3. SQL-stringi funktsioonid
  4. Mis on suurandmed

Kategooria: