Sissejuhatus andmete kaevandamisse

Selles artiklis õpime tutvuma andmete kaevandamisega, kuna inimesed on kaevandanud maad juba sajandeid, et saada igasuguseid väärtuslikke materjale. Mõnikord avastatakse kaevandamise ajal maapinnast asju, mida keegi ei osanud eriti leida. Näiteks 1898. aastal leiti Egiptuses Saqqaras muumiate leidmiseks hauakaevamise käigus puust ese, mis meenutas täpselt lennukit. See oli dateeritud 200 eKr, umbes 2200 aastat tagasi! Kuid millist võimalikku teavet saaksime suurest andmekogumist? Ja isegi kui me hakkame seda kaevandama, kas on mingit võimalust saada andmekogumist ootamatuid tulemusi? Enne seda uurime, mis täpselt on Data Mining.

Mis on andmekaeve?

  • Põhimõtteliselt on see elulise teabe / teadmiste ekstraheerimine suurest hulgast andmetest.
  • Mõelge andmetele kui suurele maapinnale / kivisele pinnale. Me ei tea, mis selle sees on, me ei tea, kas kivide all on midagi kasulikku.
  • Selles andmete kaevandamise sissejuhatuses otsime peidetud teavet, kuid meil pole aimugi, millist teavet me soovime leida ja mida me plaanime seda ühe korra kasutada, selle leiame.
  • Nii nagu kontseptsiooni traditsioonilises kaevandamises, on ka andmekaevandamises mitmesuguseid tehnikaid ja tööriistu, mis varieeruvad sõltuvalt sellest, millist tüüpi andmeid me kaevandame. Nii et oleme aru saanud, et mis on andmekaevandamine selle andmete tutvustamise sissejuhatuse teema kaudu.

Andmete kaevandamise näide

Andmekaevandamise sissejuhatuse kohta oleme õppinud ülaltoodud jaotises ja jätkame nüüd andmete kaevandamise näidetega, mis on loetletud allpool:

  • Seega on olemas mobiilsideoperaator. Operaatori kõnekirjete kaevamiseks konsulteerivad nad andmekaevandajaga. Data Minerile ei anta konkreetseid sihte.
  • Esitatakse kvantitatiivne eesmärk leida vähemalt 2 uut mustrit kuus.
  • Kui andmekaevandaja hakkab andmeid uurima, leiab ta, et kolmapäeval on rahvusvahelisi kõnesid teiste päevadega võrreldes vähem.
  • Seda teavet jagatakse juhtkonnaga ja nad tulevad välja kavaga vähendada kolmapäeviti rahvusvaheliste kõnede hindu ja alustada kampaaniat.
  • Kõnetariifid tõusevad, kliendid on rahul madala kõnehinnaga, rohkem kliente registreerub ja ettevõte teenib rohkem raha! Win-Win olukord!

Ülaltoodud näidet silmas pidades uurime nüüd andmete kaevandamisega seotud erinevaid samme.

Andmete kaevandamisega seotud sammud

Oleme eelmises jaotises tutvunud andmete kaevandamise tutvustamisega ja liigume nüüd edasi andmete kaevandamisega seotud sammudeni, mis on loetletud allpool:

  • Ettevõtte mõistmine

Selles sissejuhatuses andmekaevandamisse mõistame ärieesmärkide ja -vajaduste kõiki aspekte. Praegust olukorda hinnatakse ressursside, eelduste ja muude oluliste tegurite leidmise teel. Sellest tulenevalt luua hea sissejuhatus andmete kaevandamise kavasse, et saavutada nii äri kui ka andmete kaevandamise eesmärgid.

  • Andmete mõistmine

Esialgu kogutakse andmeid kõigist olemasolevatest allikatest. Seejärel valime parima andmekogumi, kust saaksime andmeid ekstraheerida, mis võiks olla kasulikum.

  • Andmete ettevalmistamine

Kui andmekogum on tuvastatud, valitakse see välja, puhastatakse, ehitatakse ja vormindatakse soovitud kujul.

  • Andmete modelleerimine

See on antud andmete ümberehitamise protsess vastavalt kasutaja nõudmistele. ettevalmistatud andmekogumile võiks luua ühe või mitu mudelit ja lõpuks tuleb mudeleid hoolikalt hinnata, kaasates sidusrühmad, et veenduda, kas loodud mudelid vastavad ettevõtlusalgatustele.

  • Hindamine

See on andmekaevandamise kõige vajalikum protsess. See hõlmab protsessi kõigi aspektide läbimist, et kontrollida võimalike rikete või andmete lekkimist protsessis. Samuti võiks avastatud uute mustrite tõttu tõsta uusi ärinõudeid.

  • Kasutuselevõtt

See tähendab lihtsalt teadmiste esitamist viisil, et sidusrühmad saaksid neid kasutada, kui nad seda soovivad. Meie ülaltoodud näites leiti, et rahvusvahelisi kõnesid oli kolmapäeviti vähem, seetõttu tutvustati seda teavet sidusrühmadele, kes omakorda kasutasid seda teavet oma eeliseks ja kasumi suurendamiseks.

Andmete kaevandamisel kasutatavad tehnikad

Ülaltoodud jaotises oleme õppinud andmetöötluse sissejuhatust, nüüd jätkame andmete kaevandamisel kasutatavate tehnikatega, mis on loetletud allpool:

  • Klastrianalüüs

Klastrianalüüs võimaldab tuvastada antud kasutajarühma vastavalt andmebaasis levinud tunnustele. Need omadused võivad hõlmata vanust, geograafilist asukohta, haridustase ja nii edasi.

  • Anomaalia tuvastamine

Selle abil saab kindlaks teha, millal midagi tavalisest mustrist märgatavalt erineb. Seda kasutatakse andmebaasis esinevate ebakõlade või kõrvalekallete kõrvaldamiseks nende tekkekohas.

  • Regressioonanalüüs

Seda tehnikat kasutatakse prognooside tegemiseks, mis põhinevad seostel andmekogumis. Näiteks saab konkreetse toote laoseisu ennustada, analüüsides varasemat määra ja võttes arvesse ka erinevaid tegureid, mis määravad laoseisu määra. Või nagu allpool näidatud, kui meil on andmed erinevate inimeste pikkuse ja kaalu kohta, saaksime teise väärtuse määrata ükskõik millise pikkuse või kaalu järgi.

  • Klassifikatsioon

See puudutab asju, millel on silt. Klastrite tuvastamisel ei olnud asjadel silti ja andmekaevandamise abil pidime sildistama ja klastriteks vormistama, kuid klassifitseerimisel on olemas olemasolevat teavet, mida saab algoritmi abil hõlpsalt klassifitseerida. Näide on e-posti rämpsposti filtrid. Rämpspostifilter on varustatud nii asjakohaste kui ka rämpspostiga (koolitusandmed). Nende kahe vahel on erinevused, mis võimaldab tulevasi e-kirju õigesti klassifitseerida.

  • Assotsiatiivne õpe

Selle abil analüüsitakse, millised asjad kipuvad koos esinema kas paaris või suuremas rühmas. Näiteks inimesed, kes kipuvad ostma sidruneid, ostavad ka apelsine, inimesed, kes kipuvad ostma leiba, ostavad ka piima ja nii edasi. Nii analüüsitakse kõigi klientide tehtud ostud ja koos toimuvad asjad pannakse müügi suurendamiseks üksteise lähedale. Nii pannakse piim leiva lähedale, sidrunid apelsinide kõrvale jne.

Kas andmete kaevandamine on eetiline?

Nii et plaanin koos sõbraga nädalavahetuse reisi Goasse, otsin internetist häid Goa külastamiskohti. Järgmine kord, kui Interneti avan, leian majutuse jaoks Goa erinevate hotellide reklaame.

  • Hea asi?

Jah, Internet on aidanud mul oma reisi lihtsustada. Lõppude lõpuks, kui ma otsustan Goat külastada, peaksin magama kuskil ja reklaam, mis näitab mulle hotelli, on palju kasulikum kui reklaam, mis näitab mulle juhuslikke rõivaid.

  • Halb asi?

Jah! Miks peaks andmekaevandusettevõte, millest ma pole kunagi varem kuulnud, teadma, kuhu puhkusele lähen. Mis siis, kui ma pole sellest reisist kellelegi rääkinud, aga siin äkki teab internet, et lähen sinna. Tõsi on, sellest sõltub andmekaevandamisega tegeleva ettevõtte ärimudel. Nad koguvad neid andmeid küpsiste ja skriptide kaudu, seejärel müüvad nad reklaamijatele, kes omakorda proovivad mulle müüa midagi muud (antud juhul hotellituba).

Nii et see võib olla hea või halb sõltuvalt sellest, kuidas me seda vaatame. Samuti võiksime eeltoodud juhul küpsised alati välja lülitada või inkognito režiimi minna. Ükskõik, mis iganes see ka pole, on üks asi kindel. Andmete kaevandamine on siin, et jääda.

Soovitatavad artiklid

See on olnud juhend sissejuhatusesse andmekaevandamisse. Siin käsitleme selle tähendust, tehnikaid ja andmete kaevandamise sissejuhatuses osalevaid samme parema mõistmise näitega. Lisateabe saamiseks võite vaadata ka järgmisi artikleid -

  1. Andmete kaevandamise intervjuu küsimused
  2. Ennustav analüüs vs andmete kaevandamine
  3. Sissejuhatus andmeteadusesse
  4. Mis on regressioonanalüüs?

Kategooria: