Mis on siga?
Siga on avatud lähtekoodiga mootor, mis on osa Hadoopi ökosüsteemi tehnoloogiatest. Siga töötab suurepäraselt andmetega, mis jäävad traditsioonilistest andmebaasidest või andmeladudest kaugemale. See saab hästi hakkama puuduvate, puudulike või vastuoluliste andmetega, millel puudub skeem. Sigal on andmete manipuleerimise väljendamiseks oma keel, mis on Siga ladina keeles.
Siga mõistmine
Siga on tehnoloogia, mis võimaldab teil kirjutada kõrgel tasemel, kuid äärmiselt detailsed skriptid, mis võimaldab teil töötada andmetega, mille skeem on tundmatu või vastuoluline. Siga on avatud lähtekoodiga tehnoloogia, mis töötab Hadoopi tipus ning on osa eriti elavast ja populaarsest Hadoopi ökosüsteemist.
Siga töötab hästi struktureerimata ja mittetäielike andmetega, nii et kõige jaoks ei pea teil olema tavapärast reeglite ja veergude paigutust.
See on hästi määratletud ja töötab otse HDFS-i (Hadoopi hajutatud failisüsteem) failidega.
Siga on teie valitud tehnoloogia, kui soovite andmeid allikast andmebaasi viia.
Näiteks visuaalne ülevaade sellest, kuidas andmed tavaliselt vooguvad, enne kui saate neid kasutada kenade diagrammide genereerimiseks, mida kasutate äriotsuste tegemisel.
Algandmed pärinevad paljudest allikatest, näiteks sensoritest, mobiiltelefonidest jne. Seejärel kasutate seadet ETL-i toimingu tegemiseks Pigil. ETL tähistab ekstraheerimist, teisendamist ja laadimist, kui need toimingud on tehtud, salvestatakse puhastatud andmed muusse andmebaasi. Sellise andmebaasi näiteks oleks HDFS, mis kuulub Hadoopi. Taru on andmeladu, mis töötab lisaks sellisele failisüsteemile. Taru on see, mida kasutaksite analüüsimiseks, aruannete genereerimiseks ja teadmiste kogumiseks.
ETL on andmetöötluses väga oluline samm, et töötlemata andmed saaks korrektselt ja õiges vormis andmebaasi salvestada. Väljavõte viitab struktureerimata ebajärjekindlate andmete puudumisel algväljallikast puuduvate väljade ja väärtustega. Teisendus tähistab toimingute seeriat, mida rakendaksite andmete puhastamiseks või saamiseks.
Kasuliku koondandmete eelarvutamine, väljade töötlemine vastavalt teatud vormingule - see kõik on osa teisendusväljade andmete puhastamisest.
Lõpuks teostab Pig laadimistoimingu, kus neid puhtaid andmeid hoitakse andmebaasis, kus neid saab täiendavalt analüüsida. Standardse operatsiooni näide, mida Pig täidab, on logifailide puhastamine.
Selgitage seaarhitektuuri
Arhitektuuris on arvukalt seaosi, eelistage:
- Parser : Parser tegeleb nii sea skriptidega kui ka skripti süntaksi kontrollimisega, tüüpkontrolliga ja mitmesuguste mitmesuguste kontrollidega. Lisaks võib nende tulemuseks olla DAG (Directed Acyclic Graph), mis tavaliselt tähistab sea ladina väiteid koos loogiliste operaatoritega.
Samuti näidatakse skriptiga loogilisi operaatoreid nagu sõlmi, samuti andmevooge, kuna servad läbi DAG-i.
- Optimeerija: Hiljem ületatakse loogiline plaan (DAG) tavaliselt loogilise optimeerija suhtes. See viib läbi loogilisi optimeerimisi, sealhulgas projektsiooni, ja edendab madalaid
- Kompilaator: Samuti kompileerib kompilaator selle täiustatud loogilise plaani MapReduce'i rühmas.
- Täitmismootor: lõppkokkuvõttes postitatakse kõik MapReduce'i tööd sorteeritud järjekorras Hadoopi. Lõpuks loob see nõutavad tulemused, ehkki need MapReduce'i tööd tehakse Hadoopiga.
- MapReduce: MapReduce loodi Google'is algselt veebilehtede töötlemise viisina, et Google'i otsingut tõhustada. MapReduce jaotab andmetöötluse klastri mitme masina vahel. MapReduce kasutab ära andmetöötlusele omase paralleelsuse eelised. Kaasaegsed süsteemid, näiteks sensorid või isegi Facebooki olekuvärskendused loovad miljonid andmed töötlemata andmete kohta.
Selle tasemega tegevust saab valmistada kahes etapis:
- Kaart
- Vähenda
Teie otsustate, millist loogikat soovite andmete töötlemiseks nendes etappides rakendada.
- HDFS (Hadoopi hajutatud failisüsteem): Hadoop lubab andmete salvestamist ja analüüsi plahvatuslikult piiramatu mahuga. Arendajad kasutavad HDFS-ist andmete hankimiseks selliseid rakendusi nagu Pig, Hive, HBase ja Spark.
Funktsioonid
Apache Pigil on järgmised omadused:
- Programmeerimise lihtsus: sea ladina keel on võrreldav SQL-iga ja seetõttu on arendajatel sea skripti loomine üsna lihtne. Kui teil on SQL-i keeleoskusest aru saada, on sea ladina keelt õppida uskumatult lihtne, kuna see on täpselt nagu SQL-keel.
- Rikas operaatorite komplekt: Pig sisaldab mitmesuguseid rikaste operaatorite komplekte, mis võimaldavad täita protseduure nagu liitumine, failide registreerimine, sortimine ja palju muud.
- Optimeerimise võimalused: Apache Pig'i ülesande täitmist saab ülesande abil kohe parandada; seetõttu peavad arendajad keskenduma lihtsalt selle keele semantikale.
- Laiendatavus: Ligipääsetavaid operaatoreid kasutades saavad kasutajad lihtsalt oma funktsioone andmete lugemiseks, töötlemiseks ja kirjutamiseks arendada.
- Kasutaja määratletud funktsioonid (UDF-id): UD-de valmistamisel Pigi pakutavate teenuste abil saaksime kasutaja määratud funktsioone luua paljudes arenduskeeltes, sealhulgas Java, ning käivitada või manustada need kõik Pig-skriptidesse.
Mis on siga kasulik?
Seda kasutatakse nii ülesannete kontrollimiseks kui ka täitmiseks, sealhulgas ajutine käsitsemine. Apache Pig'i võib kasutada:
Hiiglaslike töötlemata andmekogumitega analüüs eelistab otsingu veebisaitide saamiseks andmetöötlust. Nagu Yahoo, pakub Google Apache Pigile kasu nii Google'i kui ka Yahoo otsingumootorite kaudu kogutud andmete hindamiseks. Suurte andmekogude haldamine, nagu veebidokumendid, veebiteabe voogesitamine jne. Isegi Facebooki olekuuuendused genereerivad miljoneid töötlemata andmete kirjeid.
Kuidas aitab see tehnoloogia teil karjääris kasvada?
Paljud organisatsioonid rakendavad Apache Pig'i uskumatult kiiresti. See tähendab, et elukutsed sea- ja seakarjääris tõusevad iga päev. Apache Hadoopi arendamisel on viimase paari aasta jooksul tehtud suuri edusamme. Hadoopi elemendid, nagu Hive, Pig, HDFS, HBase, MapReduce jne.
Ehkki Hadoopi pakkumised tulid nende teise kümnendi juurde sel ajal, on viimase kolme-nelja aasta jooksul siiski tunnustust kogunud. Suur hulk tarkvaraettevõtteid rakendab Hadoopi klastrid uskumatult sageli. See võib kindlasti olla suurandmete parim osa. Sihtivad eksperdid võiksid selle suurepärase tehnoloogia alal kogemustega olla.
Järeldus
Apache Pig'i ekspertiis on turul väga nõudlik ja seda saab jätkuvalt laiendada. Mõistes lihtsalt mõistetest ja omandades kogemusi parimate Apache Pig'i oskustega Hadoopis, saavad eksperdid oma Apache Pig'i elukutsest suurepäraselt osa saada.
Soovitatav artikkel
See on olnud teemaks Mis on siga? Siin arutasime sea kontseptsioone, määratlust ja arhitektuuri. Lisateavet leiate ka meie muudest soovitatud artiklitest -
- Apache installimine
- Apache PIG-i intervjuu küsimused
- Mis on ASP.Net veebiteenused?
- Mis on Blockchaini tehnoloogia?