Andmete kaevandamise liik - Andmekaevandamise tüübi täielik juhend

Lang L: none (table-of-contents):

Anonim

Sissejuhatus andmete kaevandamise tüüpidesse

Mõiste „andmekaevandamine” tähendab, et peame uurima suurt andmekogumit ja kaevanduse andmeid, et kujutada sisuliselt seda, mida andmed öelda tahavad. Väga sarnane sellega, kuidas söe kaevandamine toimub, kus söe sügaval maapinnal kaevandatakse mitmesuguseid tööriistu kasutades, on ka andmekaevandamisel ka seostatud tööriistad, et andmetest kõige paremini kasu lõigata. Üks väga levinud vääritõlgendusi andmete kaevandamisel on see, et mõeldakse kui midagi, kus proovime uusi andmeid hankida, kuid see pole alati tõsi. See viitab ka millelegi, kus püüame olemasolevatest andmetest tähenduse välja saada. Seega on andmete kaevandamine iseenesest tohutu väli, kus järgmistes lõikudes käsitleme sügavamalt just andmeid kaevandamise tööriistu. Selles artiklis käsitleme andmete kaevandamise tüüpe.

Mis on andmekaeve?

Nagu andmekaevandamisest varem räägiti, on andmekaevandamine protsess, kus proovime andmetest parimat välja tuua. Andmete kaevandamise tööriistad on sillaks andmete ja neist saadava teabe vahel. Mõnes ajaveebis nimetatakse andmekaevandamist ka teadmiste avastuseks. Siinkohal tahaksime anda lühikese ettekujutuse andmete kaevandamise rakendusprotsessist, et andmekaevandamise taga olev intuitsioon oleks selge ja seda oleks lugejatel hõlbus haarata. Voolukaardi all on kujutatud vooluhulk:

Eespool käsitletud protsessis on igal tasandil olemas tööriistad ja prooviksime sügavaima sukelduda kõige olulisematesse.

Andmete kaevandamise tüübid

Andmete kaevandamist saab teostada järgmist tüüpi andmete korral:

1. Silumine (andmete ettevalmistamine)

See konkreetne andmete kaevandamise meetod kuulub andmete ettevalmistamise žanri alla. Selle tehnika peamine eesmärk on müra eemaldamine andmetest. Müra eemaldamiseks kasutatakse siin selliseid algoritme nagu lihtne eksponentsiaal, libisevat keskmist. Uurimisanalüüsi ajal on see tehnika trendide / tunnete visualiseerimiseks väga mugav.

2. Koondamine (andmete ettevalmistamine)

Nagu termin viitab, koondatakse täiendava teabe saamiseks andmete rühm. Seda tehnikat kasutatakse ülevaate saamiseks ärieesmärkidest ja seda saab kasutada käsitsi või spetsiaalse tarkvara abil. Seda tehnikat kasutatakse üldjuhul suurandmetes, kuna suurandmed ei anna tervikuna vajalikku teavet.

3. Üldistamine (andmete ettevalmistamine)

Jällegi, nagu nimigi ütleb, kasutatakse seda meetodit andmete kui terviku üldistamiseks. See erineb summeerimisest viisil, kus üldistamise ajal olevad andmed ei ole rühmitatud kokku, et saada rohkem teavet, vaid omakorda üldistatakse kogu andmekogum. See võimaldab andmeteaduste mudelil kohaneda uuemate andmepunktidega.

4. Normaliseerimine (andmete ettevalmistamine)

Selle meetodi puhul rakendatakse andmepunkte eriti hoolikalt, et viia need analüüsi jaoks samasse skaalasse. Näiteks langeb inimese vanus ja palk erinevates mõõteskaalades, seepärast ei aita nende graafikule lisamine meile kasulikku teavet kollektiivse tunnusjoonena pakutavate suundumuste kohta. Normeerimist kasutades saame nad viia võrdsesse skaalasse, nii et saaks teha õunte võrdluse.

5. Atribuudi / funktsiooni valik (andmete ettevalmistamine)

Selles tehnikas kasutame funktsioonide valiku tegemiseks meetodeid, nii et andmekogumite koolitamiseks kasutatav mudel võib tähendada väärtust ennustamata andmete jaoks. See on väga analoogne riideid täis riidekapist õige riietuse valimisega, et see sobiks ka ise sündmuseks. Mitteasjakohased funktsioonid võivad mudeli jõudlust negatiivselt mõjutada, rääkimata jõudluse parandamisest.

6. Klassifikatsioon (modelleerige andmed)

Selles andmekaevandamise tehnikas käsitletakse rühmi, mida nimetatakse klassideks. Selle tehnika puhul rakendame valitud funktsioone (nagu ülalpool käsitletud) ühiselt rühmadesse / kategooriatesse. Näiteks kui poes peame hindama, kas inimene ostab toote või mitte, siis on olemas arv n funktsioone, mida saame ühiselt kasutada, et saada tulemus tõene / vale.

7. Mustri jälgimine

See on üks põhilisi tehnikaid, mida kasutatakse andmete kaevandamisel suundumuste / mustrite kohta teabe saamiseks, mida andmepunktid võivad eksponeerida. Näiteks saame kindlaks teha suundumuse, et müük suureneb nädalavahetusel või pühade ajal, mitte tööpäevadel või tööpäevadel.

8. Väline analüüs või anomaalia tuvastamine

Nii nagu ka nimi viitab, kasutatakse seda meetodit kõrvalekallete või kõrvalekallete leidmiseks või analüüsimiseks. Kõrvalekalded või kõrvalekalded ei ole negatiivsed andmepunktid, need on lihtsalt midagi, mis eristub kogu andmekogumi üldisest trendist. Kõrvaltoimete tuvastamisel võime need andmestikust täielikult eemaldada, mis toimub andmete ettevalmistamise ajal. Või muidu kasutatakse seda tehnikat laialdaselt mudelikomplektides ka kõrvalekallete ennustamiseks.

9. Klastrid

See tehnika sarnaneb suuresti klassifitseerimisega, kuid ainus erinevus on see, et me ei tea rühma, kuhu andmepunktid pärast funktsioonide kogumist grupeerimisele langevad. Seda meetodit kasutatakse tavaliselt inimeste rühmitamiseks sarnaste tootesoovituste sihtimiseks.

10. Regressioon

Seda tehnikat kasutatakse funktsiooni tõenäosuse ennustamiseks koos teiste omadustega. Näiteks võime sõnastada eseme hinna tõenäosuse vastavalt nõudlusele, konkurentsile ja mõnele muule tunnusele.

11. Neuraalne võrk

See tehnika põhineb bioloogiliste neuronite tööpõhimõttel. Sarnaselt sellele, mida teevad inimkeha neuronid, toimivad andmekaevetööde närvivõrgus olevad neuronid ka töötlemisüksusena ja ühendavad teist neuronit teabe edastamiseks piki ahelat.

12. Ühing

Selle andmete kaevandamise meetodi puhul määratakse kindlaks erinevate tunnuste vaheline seos ja neid kasutatakse omakorda peidetud mustrite leidmiseks või tehakse seotud analüüs vastavalt ärinõuetele. Näiteks seostamise abil leiame funktsioonid, mis on üksteisega seotud, ja rõhutame seega kellegi eemaldamist, et eemaldada mõned ülearused funktsioonid ja parandada töötlemise võimsust / aega.

Järeldus

Kokkuvõtteks võib öelda, et andmete kaevandamise ajal tuleks meeles pidada erinevaid nõudeid. Peaks olema väga ettevaatlik väljundi osas, mida eeldatakse, et eesmärgi saavutamiseks saaks kasutada vastavaid tehnikaid. Ehkki andmekaevandamine on arenev ruum, oleme püüdnud luua ammendava loetelu kõigi ülaltoodud Andmekaevandamise tööriistade jaoks lugejate jaoks.

Soovitatavad artiklid

See on juhend andmete kaevandamise tüübi kohta. Siin käsitleme sissejuhatust ja 12 peamist andmekaevandamise tüüpi. Võite vaadata ka meie teisi soovitatud artikleid -

  1. Andmete kaevandamise eelised
  2. Andmekaevandamise arhitektuur
  3. Andmete kaevandamise meetodid
  4. Andmete kaevandamise tööriist
  5. Andmekaevandamise mudelite tüübid