Apache installimine
Enne sisenemist, kuidas installida Apache osa, oleks meil kõigepealt üldine ülevaade Apache kohta ja kuidas seda kasutatakse andmeteaduses.
Mis on Apache?
Apache veebiserver on HTTP-server, mis tutvustab veebisaite teie serverisse saabuvatele külastajatele. Nii et kui soovite ettevõtte või organisatsiooni jaoks veebisaiti juurutada, kasutaksite selleks tõenäoliselt Apache'i.
Seal on ka muid HTTP-servereid, näiteks IIS, kuid Apache on standard, mida enamik inimesi kasutab, olgu siis Linuxis, Windowsis või Macis. Apache on vaikimisi enamus inimesi, kuna see on hästi teada, see on väga usaldusväärne ja tasuta.
Üks asi, mida Apache abil tuleb mõista, on aga see, et kuna tegemist on HTTP-serveriga, siis kui installite selle Linuxi või Windowsi või Maci, lubaks see teil ainult staatilisi veebisaite oma serverisse tulevatele külastajatele esitada. Seega, kui kodeerite HTML-veebisaidi, millel pole muid programmeerimiskeeli peale JavaScripti, saate seda kasutada ainult Apache-serveriga. Võite oma sildid Apache-serverisse ühendada ja oma külastajatele tutvustada.
Kuidas Apache andmeteaduses kasutas?
Andmeteadus on kaasaegses maailmas kõige nõudlikum õppesuund. Data Scientistit peetakse 21. sajandi seksikaimaks töökohaks, kus erinevate erialade spetsialistid soovivad õppida ja saada Data Scientistiks. Apache mängib olulist rolli kõigis andmeteaduste entusiastides, kuna nad vajavad piisavalt teadmisi Apache Hadoopi ökosüsteemi kohta.
Apache Hadoopi ökosüsteem
Kõige esimene asi on see, et Hadoopi ökosüsteem pole üks tööriist. See ei ole programmeerimiskeel ega ühtne raamistik. See on tööriistade rühm, mida erinevad ettevõtted kasutavad erinevates valdkondades mitme ülesande jaoks koos. Me läbime kõik tööriistad ükshaaval allpool: -
- Apache HDFS (Hadoopi hajutatud failisüsteem) on Hadoopi salvestusüksus, mis võib salvestada struktureeritud, poolstruktureeritud ja struktureerimata andmeid. HDFS-il on metaandmed, mis säilitab salvestatud andmete logifaili. Sellel on kaks komponenti - NameNode ja DataNode.
- Apache Yarn on ressursiläbirääkija, kes täidab kõiki töötlemistoiminguid, näiteks ülesannete ajastamine, ressursside eraldamine jne. Sellel on kaks teenust - esiteks on ressursside haldur, kes ajastab lõnga peal töötavaid rakendusi. Teiseks on sõlmehaldur, kes jälgib ressursside kasutamist .
- Apache Map Reduce on Hadoopi andmetöötluskomponent, mis töötleb suuri andmekogumeid, kasutades hajutatud ja paralleelset andmetöötlust, mis põhineb funktsioonidel Map, Sort and Shuffle ja Reduce. Kaardifunktsioon filtreerib andmed, seejärel sorteeritakse ja hajutatakse ning lõpuks vähendatakse funktsiooni tulemusi ja võetakse need kokku.
- Apache Pig kasutati enamasti ETL-is. Sellel on kaks osa - Pig Latin ja Pig Runtime. Pig ladina keel on andmete töötlemisel päringu abil, seevastu Pig runtime on täitmiskeskkond. Üks sigade ladina rida on peaaegu võrdne kaardi 100 reaga. Vähenda koodi. Protsess hõlmab kõigepealt andmete laadimist ja seejärel HDFS-is rühmitamist, sortimist, filtreerimist ja salvestamist.
- Apache Hive kasutab hajutatud keskkonnas andmete analüüsimiseks SQL-i tüüpi päringut. Sellel on kaks komponenti - taru käsurida ja JDBC / ODBC server ning kasutatavat keelt nimetatakse HiveQLiks.
- Apache Mahout on Java-keeles kirjutatud masinõppe raamatukogu, mida kasutatakse selliste masinõpperakenduste loomiseks nagu klasterdamine, klassifitseerimine või regressioon. Sellel on erinevatel kasutusjuhtudel sisseehitatud erinevad algoritmid.
- Apache HBase on Java-keeles kirjutatud NoSQL-andmebaas, mis töötab üle Hadoopi. See on üles ehitatud Google'i BigTable'i põhjal ja on võimeline töötlema igat tüüpi andmeid.
- Apache Sqoop on üks andmeedastuse tööriista, mida kasutatakse hulgstruktureeritud andmeedastuseks RDBMSi ja Hadoopi vahel.
- Apache Flume on veel üks andmete lugemise tööriist, mida kasutatakse poolstruktureeritud ja struktureerimata andmeedastuseks Hadoopi ja teiste andmeallikate vahel.
- ZooKeeper on koordinaator, kes tagab Hadoopi ökosüsteemi erinevate tööriistade vahelise koordineerimise.
- Apache Ambari on klastrijuht, kes haldab Hadoopi klastrite haldajaid, jälgib nende tervist ja olekut.
- Apache Tez on Hadoopi ökosüsteemi uus tööriist, mis kiirendab Hadoopi päringu töötlemist.
- Apache Presto on avatud lähtekoodiga levitatud SQL päringumootor, mis võimaldab platvormidevahelist päringuvõimalust.
- Apache HCatalog on Hadoopi metaandmete ja tabelihaldussüsteem, mis võimaldab andmetöötlusriistade koostalitlusvõimet. Samuti aitab see kasutajatel kasutajatel valida oma keskkonna jaoks parimad tööriistad.
- Apache Spark on andmeteadlase seas kõige laialdasemalt kasutatav ja populaarseim raamistik. See on kiire klastrite arvutisüsteem, mis optimeerib ressursside kasutamist paljude iteratiivsete ülesannete korral. See annab paindlikkuse nii pakkide töötlemisel kui ka andmete reaalajas analüüsimisel.
Allpool on toodud juhised Apache installimiseks
Siiani oleme õppinud Apachest ja kuidas see on kasulik kõigile, kes soovivad õppida andmeteadust või suurandmete analüüsi. Nüüd sukeldame alla ja installime apache akendesse, järgides allpool toodud samme.
- Minge aadressile https://httpd.apache.org/ ja klõpsake jaotises Apache httpd 2.4.38 välja antud lingil Laadi alla.
- See viib teid järgmisele lehele ja klõpsake siis nuppu Files for Microsoft Windows.
- Klõpsake Apache Lounge.
- Võite Windowsi opsüsteemi põhjal alla laadida 32-bitise või 64-bitise ZIP-faili. Laadime siit alla 64-bitise versiooni. Allalaadimiseks klõpsake vastaval .zip-lingil.
- Nüüd nõuab see C ++ ümberjaotatavat Visual Studio 2017. Nii et laadime selle alla vastavast 32- või 64-bitisest lingist
- Pärast mõlema faili allalaadimist läheme allalaaditud asukohta ja installime kõigepealt C ++ Redistribvable Visual Studio 2017. Topeltklõpsake .exe-faili.
- Märkige ruut "Nõustun" ja klõpsake nuppu Installi.
- Apache installimine on pooleli.
- Kui see on valmis, saate sellekohase teate. Installimise lõpetamiseks klõpsake nuppu Sule.
- Nüüd minge kausta, kust te Apache zip-faili alla laadisite. Paremklõpsake seda ja valige siin väljavõte.
- Nüüd on meil loodud Apache24 kaust. Kopeerige see kaust C-draivi ja siis lisame tee süsteemikeskkonna muutujatele.
Minge vahekaardile Süsteemi atribuudid -> Täpsemalt -> Klõpsake allpool nuppu Keskkonna muutujad.
- Leidke jaotises Muutujad tee ja klõpsake nuppu Redigeeri.
- Klõpsake nuppu Sirvi -> Minge C-draivi Apache24 kausta -> Valige prügikaust -> Klõpsake nuppu OK.
- Installime Apache Windowsi teenusena. Käivitage administraatorina käsuviip. Tippige httpd –k install ja vajutage sisestusklahvi.
- Kontrollime installitud Apache teenust. Klõpsake Windowsi ikoonil ja tippige teenused. Klõpsake rakendusel Teenused ja leidke teenus nimega Apache24.
- Apache-serveri käivitamiseks paremklõpsake sellel ja klõpsake nuppu Start. Staatus muutub väärtuseks 'Running'.
- Saame testida brauseriga. Avage brauser ja liikuge aadressile http: // localhost ja vajutage sisestusklahvi. Teade, mis ütleb: "See töötab!" ilmub Apache eduka installimise kinnitamiseks.
Soovitatavad artiklid
See on olnud juhend Apache installimise kohta. Siin oleme arutanud juhiseid ja erinevaid samme Apache installimiseks. Lisateabe saamiseks võite vaadata ka järgmist artiklit -
- Apache'i intervjuu küsimused
- Apache Spark vs Apache Flink
- Apache Hadoop vs Apache Spark
- Apache Kafka vs Flume
- Kafka vs Kinesis | Peamised erinevused