Klastrimistüüpide ülevaade

Enne rühmitustüüpide õppimist mõelgem, mis on klasterdamine ja miks see on masinõppe valdkonnas praegu nii oluline.

Mis on klasterdamine? Klasterdamine on protsess, kus algoritm jagab andmepunktid kindlaksmääratud arvu rühmadesse põhimõttel, et sarnased andmepunktid püsivad üksteise lähedal ja nad kuuluvad samasse rühma.

Miks see nüüd nii oluline on? Mõistagem, et näiteks näites on veebipõhine rõivapood ja nad tahavad oma kliente paremini mõista, et nad saaksid oma reklaamistrateegiat efektiivsemaks muuta. Neil pole võimalik omada iga kliendi jaoks ainulaadset strateegiat, selle asemel saavad nad jagada kliendid teatud arvu rühmadesse (nende varasemate ostude põhjal) ja omada eraldi strateegiat eraldi rühmadele. See muudab ettevõtte efektiivsemaks, see on põhjus, miks klastrid on praegu tööstuses olulised.

Klastrite tüübid

Klasterdamismeetodid jagunevad laias laastus kahte tüüpi: kõvad meetodid ja pehmed meetodid. Kõvade rühmitamismeetodi korral kuulub iga andmepunkt või vaatlus ainult ühte klastrisse. Pehme klasterdamismeetodi korral ei kuulu iga andmepunkt täielikult ühte klastrisse, selle asemel võib see kuuluda mitmesse klastrisse. Sellel on liikmesuse koefitsientide komplekt, mis vastab antud klastris olemise tõenäosusele.

Praegu on kasutusel erinevat tüüpi klasterdamismeetodeid. Siin artiklis käsitleme mõnda olulist, näiteks hierarhiline klasterdamine, jaotamise klasterdamine, hägune klasterdamine, tiheduspõhine klasterdamine ja jaotusmudelil põhinev klasterdamine. Nüüd arutame neist ühte näitega:

1. Jaotusklastrid

Osadeks jaotamine Klasterdamine on teatud tüüpi klasterdamistehnika, mis jagab andmestiku määratud arvu rühmadesse. (Näiteks K väärtus KNN-is ja see otsustatakse enne mudeli koolitamist). Seda võib nimetada ka tsentroidipõhiseks meetodiks. Selle lähenemisviisi korral moodustatakse klastri keskpunkt (tsentroid) selliselt, et selle klastri andmepunktide kaugus on teiste klastri tsentroididega arvutamisel minimaalne. Selle algoritmi kõige populaarsem näide on KNN-i algoritm. Nii näeb välja jaotamise rühmitamise algoritm

2. Hierarhiline klasterdamine

Hierarhiline klasterdamine on klasterdamistehnika tüüp, mis jagab selle andmekogumi mitmeks klastriks, kus kasutaja ei määra enne mudeli väljaõpet genereeritavate klastrite arvu. Seda tüüpi klastritehnikat tuntakse ka ühenduvusel põhinevate meetoditena. Selle meetodi puhul ei toimu andmekogumi lihtne osadeks jaotamine, samas kui see annab meile klastrite hierarhia, mis teatud vahemaa järel üksteisega sulanduvad. Pärast seda, kui andmestikus on hierarhiline klasterdamine tehtud, on tulemuseks puupõhine andmepunktide (Dendogram) esitus, mis jagunevad klastriteks. Nii näeb hierarhiline rühmitus välja pärast treeningu tegemist

Allika link: Hierarhiline klasterdamine

Jaotamisklastrites ja hierarhilistes klastrites on üks peamisi erinevusi, mida me rühmitamisel märgame, siis täpsustame eelnevalt, kui paljudesse klastritesse me soovime andmekogumi jagada, ja me ei täpsusta seda väärtust hierarhilises klastrites. .

3. Tiheduspõhine klasterdamine

Selles klastrimis moodustatakse tehnika klastrid erinevate tiheduspiirkondade eraldamise teel, tuginedes andmeplaadi erinevatele tihedustele. Tiheduspõhine ruumiline rühmitamine ja mürarakendus (DBSCAN) on seda tüüpi tehnikas enim kasutatav algoritm. Selle algoritmi peamine idee on, et klastri iga punkti jaoks peaks olema minimaalne arv punkte, mis asuvad antud raadiuse naabruses. Siiani ülalnimetatud klastritehnikate puhul, kui te põhjalikult jälgite, võime märgata ühte tavalist asja kõigis tehnikates, mis moodustavad moodustatud klastrite kuju on kas sfäärilised või ovaalsed või nõgusad. DBSCAN võib moodustada erineva kujuga klastrid, seda tüüpi algoritm on kõige sobivam, kui andmekogum sisaldab müra või kõrvalnähte. Nii näeb tihedusel põhinev ruumilise rühmituse algoritm välja pärast treeningu tegemist.

Allika link: tiheduspõhine klasterdamine

4. Jaotusmudelil põhinev klasterdamine

Seda tüüpi klastrites moodustatakse tehnika klastrid, tuvastades tõenäosuse, et klastri kõik andmepunktid on pärit samast jaotusest (normaalne, Gaussi). Seda tüüpi tehnika kõige populaarsem algoritm on ootuspärasuse-maksimeerimise (EM) klasterdamine, kasutades Gaussi segumudeleid (GMM).

Tavalised klastritehnikad, näiteks Hierarhiline klasterdamine ja Partitsioneerimisklastrid, ei põhine formaalsetel mudelitel, KNN-i jaotamine klastrites annab erinevad tulemused erinevate K-väärtustega. Kuna KNN ja KMN peavad klastri keskpunkti keskmiseks, ei ole see Gaussi segumudelite puhul mõnel juhul kõige parem, eeldame, et andmepunktid on Gaussi jaotusega, seega on meil klastrite keskmise kuju ja standardhälbe kirjeldamiseks kaks parameetrit. Sel viisil omistatakse igale klastrile üks Gaussi jaotus, et nende parameetrite optimaalseid väärtusi (keskmine ja standardhälve) saadaks kasutatakse optimeerimise algoritmi nimega Expectation Maximization. Nii näeb EM-GMM välja pärast treeningut.

Allika link: jaotusmudelil põhinev klasterdamine

5. Hägune klasterdamine

Kuulub pehmete meetodite klasterdamistehnikate haru, samas kui kõik ülalnimetatud klastritehnikad kuuluvad kõvade meetodite klastritehnikate hulka. Seda tüüpi klastritehnikas näidatakse keskpunkti lähedal asuvaid punkte, võib-olla teise klastri osa kõrgemal kui sama klastri servas olevad punktid. Teatud klastrisse kuuluva punkti tõenäosus on väärtus, mis jääb vahemikku 0 kuni 1. Selle tüüpi tehnika kõige populaarsem algoritm on FCM (fuzzy C-tähendab algoritmi). Siin arvutatakse klastri keskpunkt keskmise väärtusena. kõigist punktidest, mida on kaalutud nende kuulumise tõenäosusse klastrisse.

Järeldus - klastrimise tüübid

Need on mõned praegu kasutusel olevatest erinevatest klastritehnikatest ja selles artiklis oleme hõlmanud ühte klastritehnikat ühte populaarset algoritmi. Peame valima kasutatava tehnoloogia tüübi, tuginedes meie andmestikule ja nõuetele, mida peame täitma.

Soovitatavad artiklid

See on olnud klastrimistüüpide juhend. Siin käsitleme erinevaid klastrimistüüpe nende näidetega. Võite lisateabe saamiseks vaadata ka järgmisi artikleid -

  1. Hierarhiline klasterdamisalgoritm
  2. Klastrid masinõppes
  3. Masinõppe algoritmide tüübid
  4. Andmete analüüsimeetodite tüübid
  5. Kuidas kasutada ja eemaldada tabelis olevat hierarhiat?
  6. Andmete analüüsi tüüpide täielik juhend

Kategooria: