Mis on Hadoop? - Hadoopi rakendused ja funktsioonid

Lang L: none (table-of-contents):

Anonim

Mis on Hadoop?

Hadoopi viis mõõdikut on maht, mitmekesisus, kiirus, õigsus ja väärtus. Andmete arv kasvab kiiresti ning need on struktureeritud, struktureerimata ja poolstruktureeritud vormingus. Andmed suurenevad suure kiirusega ja me peaksime nendest andmetest mõistliku ülevaate saama. Andmetel peab olema teatav väärtus, kuid andmetes on mõningaid vastuolusid ja ebakindlust. Andmeid salvestavad traditsioonilised süsteemid ei saa salvestusruumi tõttu neid kiiresti kasvavaid andmeid salvestada. Traditsiooniline süsteem, mis ei suuda andmeid töödelda, on keeruka andmestruktuuriga ja andmete töötlemine võtab tohutult aega. Hadoop lahendaks traditsioonilise andmebaasisüsteemi küsimuse. Hadoop on raamistik, mis töötleb paralleelselt tohutul hulgal andmeid ja salvestab selle hajutatud keskkonnas. Hadoopil on kaks komponenti: 1) HDFS (salvestage andmeid kogu klastri kaudu); 2) MapReduce (töödelge andmeid paralleelselt). HDFS salvestab andmeid erinevate plokkide kujul. Vaikimisi on ploki suurus 128 MB.

Hadoopi rakendused

Hadoopi rakendusi selgitatakse allpool:

a. Veebisaidi jälgimine

Oletame, et olete loonud veebisaidi ja soovite teada külastajate üksikasju. Hadoop kogub selle kohta tohutul hulgal andmeid. See annab teavet külastaja asukoha kohta, millist lehekülastust ta kõigepealt külastas, kui palju aega veebisaidil ja millisel lehel veedeti, mitu korda külastaja on lehte külastanud, milline külastaja meeldib kõige rohkem. See võimaldab ennustada külastajate huvi, veebisaidi toimivus ennustab, mis oleks kasutajate huvides. Hadoop aktsepteerib andmeid mitmes vormingus mitmest allikast. Apache HIVE-d kasutatakse miljonite andmete töötlemiseks.

b. Geograafilised andmed

Kui ostame tooteid e-kaubanduse veebisaidilt. Veebisait jälgib kasutaja asukohta, ennustab klientide ostmist nutitelefonide, tahvelarvutite abil. Hadoopi klaster aitab geograafilises asukohas äri välja mõelda. See aitab tööstusharudel näidata ärivaldkonna graafikut igas valdkonnas (positiivne või negatiivne).

c. Jaekaubandus

Jaemüüjad kasutavad andmete mõistmiseks, analüüsimiseks struktureeritud ja struktureerimata kujul klientide andmeid. See aitab kasutajal kliendi nõudmistest aru saada ning teenindab neid paremate eeliste ja paremate teenustega.

d. Finantstööstus

Finantssektor ja finantsettevõtted hindavad finantsriski, turuväärtust ja loovad mudeli, mis annab klientidele ja majandusharule paremaid tulemusi investeeringute osas, nagu näiteks aktsiaturg, FD jne. Mõistage kauplemisalgoritmi. Hadoop käivitab ehitamismudeli.

e. Tervishoiutööstus

Hadoop saab salvestada suures koguses andmeid. Meditsiinilised andmed on struktureerimata kujul. See aitab arstil paremat diagnoosi saada. Hadoop säilitab patsiendi haigusloo rohkem kui 1 aasta, analüüsib haiguse sümptomeid.

f. Digitaalne turundus

Oleme 20ndate ajastul, iga inimene on digitaalselt ühendatud. Kasutajani jõuab teave mobiiltelefonide või sülearvutite kaudu ning inimesed saavad teada kõikidest uudiste, toodete jms üksikasjadest. Hadoop salvestab massiliselt veebist genereeritud andmeid, salvestab, analüüsib ja annab tulemuse digitaalturunduse ettevõtetele.

Hadoopi omadused

Allpool on toodud Hadoopi funktsioonid:

1. Tasuv: Hadoop ei vaja selle rakendamiseks spetsiaalset ega tõhusat riistvara. Seda saab rakendada lihtsal riistvaral, mida tuntakse kui kogukonna riistvara.

2. Suur sõlmede klaster: klastri võib moodustada 100 või 1000 sõlme. Suure klastri omamise eeliseks on see, et see pakub klientidele rohkem arvutusvõimsust ja tohutut salvestussüsteemi.

3. Paralleelne töötlemine: andmeid saab töödelda üheaegselt kõigis klastrites ja see protsess säästab palju aega. Traditsiooniline süsteem ei suutnud seda ülesannet täita.

4. Jaotatud andmed: Hadoopi raamistik hoolitseb andmete jagamise ja jaotamise eest klastri kõigis sõlmedes. See kopeerib andmeid kõigi klastrite kohta. Replikatsioonitegur on 3.

5. Automaatne failihalduse haldamine: Oletame, et kui mõni klastri sõlmedest ebaõnnestub, asendab Hadoopi raamistik rikkemasina uue masinaga. Vana masina replikatsiooniseaded nihutatakse automaatselt uuele masinale. Administraator ei pea selle pärast muretsema.

6. Andmete lokaalsuse optimeerimine: Oletame, et programmeerija vajab sõlme andmeid andmebaasist, mis asub teises kohas, saadab programmeerija andmebaasi koodibaidi. See säästab ribalaiust ja aega.

7. Heterogeenne klaster: sellel on erinev sõlm, mis toetab erinevaid versioone erinevate masinatega. IBMi masin toetab Red Hat Linuxit.

8. Skaalautuvus: sõlmede lisamine või eemaldamine ning riistvarakomponentide lisamine või eemaldamine klastrisse või klastrist. Saame seda ülesannet täita, häirimata klastri tööd. RAM-i või kõvaketast saab klastrisse lisada või sealt eemaldada.

Hadoopi eelised

Hadoopi eeliseid selgitatakse allpool:

  • Hadoop saab hakkama suure andmemahuga ja suudab andmeid mõõtmete järgi muuta. Nüüd on päeva andmed 1–100 terabaiti.
  • See mahutab tohutu hulga andmeid, ilma et oleks palju väljakutseid. Võtame näiteks Facebooki - miljonid inimesed loovad ühenduse, jagavad mõtteid, kommentaare jne. See saab tarkvara- ja riistvaraprobleemidega sujuvalt hakkama.
  • Kui üks süsteem ebaõnnestub, ei lähe andmed kaduma või ei kao teave, kuna replikatsioonitegur on 3, kopeeritakse andmeid 3 korda ja Hadoop viib andmed ühest süsteemist teise. See saab töödelda erinevat tüüpi andmeid, nagu näiteks struktureeritud, struktureerimata või poolstruktureeritud.
  • Struktuuriandmed nagu tabel (ridu või veerge saame hõlpsalt otsida), struktureerimata andmed (nt videod) ning fotod ja poolstruktureeritud andmed nagu struktureeritud ja poolstruktureeritud kombinatsioon.
  • Hadoopi projekti bigdata projektiga seotud kulud on madalad, kuna ettevõtted ostavad salvestus- ja töötlemisteenuseid pilveteenuse pakkujatelt, kuna ühebaidise salvestuse hind on madal.
  • See pakub paindlikkust, luues samas väärtust sellistest andmetest nagu struktureeritud ja struktureerimata. Väärtuslikku teavet saame tuletada sellistest andmeallikatest nagu sotsiaalmeedia, meelelahutuskanalid, ostuveebisaidid.
  • Hadoop saab töödelda andmeid CSV-failide, XML-failide jne abil. Andmeid töödeldakse jaotuskeskkonnas paralleelselt, saame andmeid kaardistada, kui need asuvad klastris. Server ja andmed asuvad samas kohas, nii et andmete töötlemine on kiirem.
  • Kui meil on tohutu hulk struktureerimata andmeid, saame minuti jooksul edastada andmeid terabaitides. Arendajad saavad Hadoopi kodeerida, kasutades erinevaid programmeerimiskeeli, näiteks python, C, C ++. See on avatud lähtekoodiga tehnoloogia. Lähtekood on veebis hõlpsasti kättesaadav. Kui andmete arv kasvab iga päevaga, saame klastrisse lisada sõlme. Me ei pea rohkem klastrid lisama. Iga sõlm täidab oma tööd oma ressursse kasutades.

Järeldus

Hadoop saab teha suuri andmete arvutusi. Selle töötlemiseks on Google välja töötanud Map Reduce algoritmi, Hadoop käivitab selle algoritmi. See mängib suurt rolli statistilises analüüsis, äriteabes ja ETL-i töötlemises. Lihtne kasutada ja vähem kulukas. See suudab käsitleda terabaidiseid andmeid, analüüsida neid ja anda andmetest väärtust ilma raskusteta ja ilma teabe kadumiseta.

Soovitatavad artiklid

See on juhend teemal Mis on Hadoop ?. Siin käsitleme Hadoopi rakendust ja funktsioone koos eelistega. Lisateavet leiate ka meie muudest soovitatud artiklitest -

  1. Klastrimismeetodid
  2. Interneti-tarkvara
  3. Hadoopi FS-i käskude loend
  4. Hadoopi eelised
  5. Kuidas kommentaarid toimivad PHP-s?