8 parimat suurte andmeinseneride intervjuud ja küsimused (ajakohastatud 2019 jaoks)

Sissejuhatus Big Data intervjuu küsimustele ja vastustele

Igasuguseid andmeid, mida Internetis genereeritakse, nimetatakse suurandmeteks, sadu GB andmeid genereeritakse Internetis ainult veebitegevuse kaudu. Veebitegevus, näiteks veebitegevus, ajaveebid, teksti-, video- / helifailid, pildid, e-post, suhtlusvõrgustiku tegevus. Suurte andmete jaoks on vaja struktureerimata andmete töötlemiseks spetsiaalseid süsteeme ja tarkvarariistu. Andmeid, mida nende tegevuste põhjal saab genereerida, nimetatakse suurandmeteks. Suurandmed on täiesti laiad ja levitatud Internetis ning seetõttu vajavad suurandmete töötlemine hajutatud süsteeme ja tööriistu, et neist teavet saada.

Allpool on mõned olulised 2019. aasta Big Data küsitluse küsimused ja vastused:

Kui otsite tööd, mis on seotud Big Dataga, peate valmistuma 2019. aasta Big Data küsitlusküsimusteks. Ehkki iga Big Data-vestlus on erinev ja ka töö maht on erinev, saame teid aidata kõige populaarsemate Big Data-intervjuu küsimuste ja vastustega, mis aitavad teil hüppe teha ja oma Big Data-vestlusele edu saada.

Need küsimused jagunevad kaheks osaks:

1. osa - suurandmete küsitlemise küsimused (põhilised)

See esimene osa hõlmab põhilisi Big Data küsitluse küsimusi ja vastuseid

1. Mis on suurandmete tähendus ja kuidas need erinevad?

Vastus:
Suurandmed on termin, mis tähistab igasuguseid Internetis genereeritud andmeid. Internetis genereerib sadade GB andmetega andmeid ainult veebitegevus. Veebitegevus tähendab siinkohal veebitegevust, blogisid, teksti-, video- / helifaile, pilte, e-posti, suhtlusvõrgustiku tegevust jne. Suurandmetele võib viidata kui nendest tegevustest loodud andmetele. Veebis loodud andmed on enamasti struktureerimata kujul. Suurandmed hõlmavad lisaks veebitegevustele ka andmebaasis olevaid tehingute andmeid, süsteemi logifaile koos andmetega, mis on loodud nutiseadmetest nagu sensorid, asjade Interneti, RFID-sildid ja nii edasi.
Suurte andmete jaoks on vaja struktureerimata andmete töötlemiseks spetsiaalseid süsteeme ja tarkvarariistu. Tegelikult on mõne tööstusharu hinnangul peaaegu 85% Internetis loodud andmetest struktureerimata. Tavaliselt on relatsiooniandmebaasid struktureeritud vormingus ja andmebaas tsentraliseeritud. Seega saab RDBMS-i töötlemist kiiresti teha päringkeelt, näiteks SQL-i kasutades. Teisest küljest on suurandmed väga suured ja neid levitatakse Internetis ning seetõttu vajavad suurandmete töötlemiseks hajutatud süsteemid ja tööriistad, et neilt teavet ammutada. Suurandmed vajavad nende töötlemiseks spetsiaalseid tööriistu, näiteks Hadoop, Hive või teisi, koos suure jõudlusega riistvara ja võrkudega.

2. Millised on suurandmete omadused?

Vastus:
Suurandmetel on kolm peamist omadust: helitugevus, mitmekesisus ja kiirus.
Mahu karakteristik viitab andmete suurusele. Prognooside kohaselt genereeritakse iga päev üle 3 miljoni GB andmeid. Selle andmemahu töötlemine pole tavalises personaalarvutis ega kliendi-serveri võrgus kontorikeskkonnas piiratud arvutusliku ribalaiuse ja salvestusmahuga võimalik. Pilveteenused pakuvad aga lahendusi suurte andmemahtude haldamiseks ja nende tõhusaks töötlemiseks, kasutades hajutatud arvutusarhitektuure.
Sordiomadus viitab suurandmete vormingule - struktureeritud või struktureerimata. Traditsiooniline RDBMS sobib struktureeritud vormingusse. Struktureerimata andmevormingu näide on videofaili vorming, pildifailid, lihtteksti vorming, veebidokumentidest või tavalistest MS Wordi dokumentidest, kõigil on unikaalsed vormingud jne. Samuti tuleb märkida, et RDBMS ei suuda käsitleda struktureerimata andmevorminguid. Lisaks tuleb kõik need struktureerimata andmed grupeerida ja konsolideerida, mis loob vajaduse spetsiaalsete tööriistade ja süsteemide järele. Lisaks sellele lisatakse uusi andmeid iga päev või iga minut ja andmed kasvavad pidevalt. Seega on suurandmed mitmekesisuse sünonüümid.
Kiiruskarakteristik viitab andmete loomise kiirusele ja kõigi andmete töötlemiseks vajalikule tõhususele. Näiteks Facebooki pääseb kuu jooksul üle 1, 6 miljardi kasutaja. Samamoodi on ka teisi suhtlusvõrgustiku saite, YouTube, Google'i teenused jne. Selliseid andmevooge tuleb töödelda päringute abil reaalajas ja neid tuleb salvestada ilma andmete kadumiseta. Seega on kiiruse karakteristik oluline suurandmete töötlemisel.
Lisaks hõlmavad muud omadused tõepärasust ja väärtust. Andmete usaldusväärsus ja usaldusväärsus määravad tõesus ja väärtus on väärtus, mille organisatsioonid saavad suure andmetöötluse abil.

Liigume järgmiste Big Data Intervjuu küsimuste juurde

3. Miks on suurandmed organisatsioonide jaoks olulised?

Vastus:
See on põhiline Big Data küsitluse küsimus, mida intervjuus küsiti. Suurandmed on olulised, kuna suurandmete töötlemisel saavad organisatsioonid saada teavet, mis on seotud:
• Kulude vähendamine
• Toodete või teenuste täiustused
• Mõista klientide käitumist ja turge
• Tõhus otsuste tegemine
• Konkurentsivõimelisemaks muutumiseks

4. Nimetage mõni tööriist või süsteem, mida kasutatakse suurandmete töötlemisel?

Vastus:
Suurt andmete töötlemist ja analüüsi saab teha, kasutades
• Hadoop
• taru
• Siga
• Mahout
• Flume

2. osa - suurte andmetega intervjuu küsimused (täpsemad)

Vaadakem nüüd üksikasjalikke suurandmete intervjuu küsimusi.

5. Kuidas saavad suurandmed organisatsioone toetada?

Vastus:
Suurandmetel on võimalus organisatsioone mitmel viisil toetada. Suurtest andmetest saadud teavet saab kasutada
• Parem kooskõlastamine klientide ja sidusrühmadega ning probleemide lahendamiseks
• Parandada aruandlust ja analüüsi toodete või teenuste täiustamiseks
• Kohandage tooteid ja teenuseid valitud turgudele
• Tagage parem teabevahetus
• Toetus juhtimisotsuste tegemisel
• Tuvastage uued võimalused, tooteideed ja uued turud
• Koguge andmeid mitmest allikast ja arhiivige need edaspidiseks kasutamiseks
• Hooldage andmebaase, süsteeme
• Määrake jõudlusmõõdikud
• Mõista ärifunktsioonide vastastikust sõltuvust
• Hinnake organisatsiooni jõudlust

6. Selgitage, kui suuri andmeid saab kasutada ettevõtte väärtuse suurendamiseks?

Vastus:
Ehkki mõistab suurandmete analüüsimise vajadust, aitab selline analüüs ettevõtetel tuvastada oma positsiooni turgudel ja aitab ettevõtetel konkurentidest eristuda. Näiteks suudavad organisatsioonid suurandmete analüüsi tulemuste põhjal mõista kohandatud toodete vajadust või mõista potentsiaalseid turge tulude ja väärtuse suurendamise suunas. Suurandmete analüüsimine hõlmab erinevatest allikatest pärit andmete rühmitamist, et mõista suundumusi ja ettevõtlusega seotud teavet. Kui suurandmete analüüs toimub plaanipäraselt, kogudes andmeid õigetest allikatest, saavad organisatsioonid hõlpsalt luua ettevõtte väärtust ja tulusid peaaegu 5% kuni 20%. Selliste organisatsioonide näideteks on Amazon, Linkedin, WalMart ja paljud teised.

Liigume järgmiste Big Data Intervjuu küsimuste juurde

7. Mis on suurandmete lahenduste juurutamine?

Vastus:
Esmalt rakendatakse suurandmete lahendusi väikeses mahus, lähtudes ettevõttele sobivast kontseptsioonist. Tulemusest, mis on prototüübilahendus, laiendatakse ärilahendust veelgi. See on kõige populaarsem Big Data intervjuu küsimus, mida Big Data küsitluses küsiti. Parimate tavade seas on tööstuses järgitud järgmisi parimaid tavasid:
• omada selgeid projekti eesmärke ja teha vajadusel koostööd
• Andmete kogumine õigetest allikatest
• Veenduge, et tulemused pole viltu, sest see võib viia valede järeldusteni
• Olge valmis uuendusteks, kaaludes töötlemisel hübriidseid lähenemisviise, kaasates andmed struktureeritud ja struktureerimata tüüpidest, hõlmama nii sisemisi kui ka väliseid andmeallikaid
• Mõista suurandmete mõju organisatsiooni olemasolevatele infovoogudele

8. Millised on suurandmete lahenduste sammud?

Vastus:
Suurandmete lahendused järgivad selle rakendamisel kolme standardset sammu. Nemad on:
Andmete sisestamine: see samm määratleb lähenemisviisi andmete eraldamiseks ja konsolideerimiseks mitmest allikast. Andmeallikad võivad olla näiteks sotsiaalvõrgustikud, CRM, RDBMS jne. Erinevatest allikatest ekstraheeritud andmed salvestatakse Hadoopi hajutatud failisüsteemi (HDFS).
Andmete salvestamine: see on teine samm, kustutatud andmed salvestatakse. See salvestusruum võib olla HDFS või HBase (NoSQL andmebaas).
Andmete töötlemine: see on viimane samm. Salvestatud andmeid tuleb töödelda. Töötlemiseks kasutatakse selliseid tööriistu nagu Spark, Pig, MapReduce jt.

Soovitatav artikkel

See on põhjalik juhend Big Data küsitluse küsimustele ja vastustele, nii et kandidaat saab neid Big Data intervjuu küsimusi hõlpsalt lahendada. Lisateabe saamiseks võite vaadata ka järgmisi artikleid -