Mis on Hadoopi voogesitus?

Hadoopi voogesitus on Hadoopi jaotusega kaasas olev utiliit, mida saab kasutada programmide käivitamiseks suurandmete analüüsiks. Selle teostamiseks on mitu keelt, näiteks Java, Scala, Unix, Perl, Python ja paljud teised. See utiliit aitab meil kaardi loomisel ja käitamisel töökohti vähendada, kui kõik käivitatavad või skriptid on kaardistaja ja / või redutseerija.

Definitsioon

See on Hadoopi jaotus koos utiliidiga. Utiliit aitab meil luua ja käivitada konkreetseid MapReduce'i töid käivitatava või skriptiga kaardistaja ja / või redutseerijana.

Mõistmine

Hadoopi jaotus pakub java utiliite, mida nimetatakse Hadoopi voogesituseks. Utiliit on pakitud JAR-faili. Utiliidi abil saame MapReduce'i töid luua ja käivitada käivitatava skriptiga. Lisaks saame kaardistaja ja reduktori funktsioonide käitamiseks luua käivitatavaid skripte. Käivitatavad skriptid antakse käsu abil Hadoopi voogesitusele. Pärast skriptide Hadoopi voogesitusse viimist loob Hadoopi voogesituse utiliit kaardi ja vähendab töökohti ning edastab need klastrisse. Neid töökohti saab selle utiliidi abil ka jälgida.

Kuidas see töötab?

Kaardistajale ja reduktorile määratud skript töötab järgmiselt -

Pärast kaardistaja skripti täielikku initsialiseerimist käivitab see skripti eksemplari erinevate protsesside ID-dega. Kaardistaja võtab jooksmise ajal sisestusliinid ja edastab need standardsisendile. Samal ajal kogub kaardistaja protsessi tavaväljundi väljundid. See teisendab iga rea ​​võtme-väärtuse paariks. Seejärel kogutakse võtme-väärtuse paaride komplekt kaardistaja väljundina. Võtme väärtuste paar valitakse tabulaatori esimese märgi põhjal. Liini osa kuni algse vaheleheni on valitud võtmeks, ülejäänud rida on valitud väärtuslikuks osaks. Kui vahekaarti reas ei esine, valitakse võtmeks kogu rida ja rea ​​väärtus puudub. Seda saab kohandada vastavalt ettevõtte vajadustele.

Hadoopi voogesituse kasutamise eesmärk

Seda kasutatakse reaalajas andmete küsimiseks, mida saab kasutada erinevates reaalajas kasutatavates rakendustes. Hadoopi voogesituse abil on erinevaid reaalajas pakutavaid rakendusi, nagu aktsiaportfellide vaatamine, aktsiaturuanalüüs, ilmateate jutustamine, liiklusteatised.

Hadoopi voogesituse töö

Allpool on lihtne näide Hadoopi voogesituse toimimisest.

$HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/hadoop-streaming.jar \
-input myInputDirs \
-output myOutputDir \
-mapper org.apache.hadoop.mapred.lib.IdentityMapper \
-reducer /bin/wc

Sisestuskäsku kasutatakse sisendkataloogi pakkumiseks, väljundkäsku kasutatakse väljundkataloogi pakkumiseks. Kaardistaja käsku kasutatakse käivitatava kaardistaja klassi täpsustamiseks, samas kui taandaja käsku kasutatakse käitatava taandaja klassi määramiseks.

Hadoopi voogesituse eelised

Allpool on Hadoopi voogesituse eelised:

1. Kättesaadavus

See ei nõua eraldi tarkvara installimist ja haldamist. On ka muid tööriistu, näiteks siga, taru, mida saab paigaldada. Mul on vaja eraldi hallata.

2. Õppimine

See ei nõua uute tehnoloogiate õppimist. Hadoopi voogesitust saab kasutada minimaalsete Unixi oskustega andmete analüüsimiseks.

3. Vähendage arenguaega

Unixi voogesitusrakenduste arendamisel on vaja kirjutada kaardistaja ja reduktorikood, samal ajal kui sama töö tegemine Java MapReduce'i rakendust kasutades on keerulisem ja see tuleb kõigepealt kompileerida, seejärel testida, seejärel pakkida, seejärel eksportida JAR-faili ja seejärel käivitada.

4. Kiirem teisendamine

Andmete teisendamine ühest vormingust teise Hadoopi voogesituse abil võtab väga vähe aega. Saame seda kasutada andmete teisendamiseks tekstifailist jadafaili ja seejärel uuesti jatifailist tekstifaili ja paljudele teistele. Seda saab saavutada Hadoopi voogesituse sisendvormingu ja väljundvormingu võimalustega.

5. Testimine

Sisend- ja väljundandmeid saab kiiresti testida, kasutades Hadoopi voogesitust koos Unixi või Shell Scriptiga.

6. Nõue ettevõtlusele

Lihtsate ärinõuete jaoks, nagu lihtsad filtreerimistoimingud ja lihtsad liitmistoimingud, saame seda Unixi abil kasutada.

7. Etendus

Hadoopi voogesituse abil saame voogesituse andmetega töötades parema jõudluse. Hadoopi voogesitusel on ka mitmeid puudusi, mida lahendatakse Hadoopi paketi muude tööriistade abil, näiteks Kafka, flume, säde.

Miks me vajame Hadoopi voogesitust?

See aitab reaalajas andmete analüüsimisel, mis on palju kiirem, kasutades MapReduce'i programmeerimist, mis töötab mitme sõlmega klastris. On olemas erinevaid tehnoloogiaid, nagu säde Kafka ja teised, mis aitab reaalajas Hadoopi voogesitust.

Kuidas see tehnoloogia aitab teid karjääri kasvamisel?

Tänapäeval kolivad kõik suuremad ettevõtted andmete analüüsimiseks Hadoopi ja paljud neist võivad vajada reaalajas andmete analüüsi. Nõudlus reaalajas andmete kasutamise ja sama päevast päeva töötlemise järele ning see tehnoloogia loob palju võimalusi individuaalseks karjääriks.

Järeldus

See pakub tohutul hulgal eeliseid erinevate reaalajas andmete töötlemiseks voogesituse andmete abil.

Soovitatavad artiklid

See on Hadoopi voogesituse juhend. Siin käsitleme Hadoopi voogesituse määratlust, kontseptsiooni, eeliseid ja puudusi. Lisateavet leiate ka meie muudest soovitatud artiklitest -

  1. Mis on Hadoopi klaster?
  2. Mis on andmete kaevandamine?
  3. Mis on andmete visualiseerimine
  4. Mis on andmete modelleerimine?
  5. Kafka tööriistade täielik juhend

Kategooria: