K- tähendab klasterdamisalgoritmi - Kuidas see töötab - Analüüs ja rakendamine

K-vahendite klasterdamisalgoritmi sissejuhatus?

K-vahendite klasterdamine kuulub juhendamata õppealgoritmi. Seda kasutatakse juhul, kui andmed pole määratletud rühmade või kategooriatena, st märgistamata andmed. Selle klastrialgoritmi eesmärk on otsida ja leida andmetest rühmi, kus muutuja K tähistab rühmade arvu.

K- tähendab klaarimisalgoritmi mõistmist

See algoritm on iteratiivne algoritm, mis jaotab andmekogumi vastavalt nende omadustele K-arvuks eelnevalt määratletud mittekattuvateks eraldiseisvateks klastriteks või alarühmadeks. See muudab klastrite vahelised andmepunktid võimalikult sarnaseks ja püüab klastrid hoida nii palju kui võimalik. See eraldab andmepunktid klastrisse, kui klastri tsentriidi ja andmepunktide vaheline ruutkauguse summa on minimaalne, kui klastri tsentrid on klastris asuvate andmepunktide aritmeetiline keskmine. Klastri väiksema variatsiooni tulemuseks on klastri sarnased või homogeensed andmepunktid.

Kuidas K-rühmituse algoritm töötab?

K- tähendab klastrimisalgoritmi vajab järgmisi sisendeid:

K = alarühmade või klastrite arv
Proov või treeningkomplekt = (x ₁, x ₂, x ₃, ……… x _n )

Oletagem nüüd, et meil on andmesidekomplekt, mis pole märgistatud ja peame selle jagama klastriteks.

Nüüd peame leidma klastrite arvu. Seda saab teha kahel viisil:

Küünarliigese meetod.
Eesmärgi meetod.

Arutame neid lühidalt:

Küünarliigese meetod

Selle meetodi korral tõmmatakse kõver ruutude summa piires (WSS) ja klastrite arvu vahel. Joonistatud kõver sarnaneb inimese käega. Seda nimetatakse küünarnuki meetodiks, kuna küünarnuki punkt kõver annab meile optimaalse klastrite arvu. Pärast graafikut või kõverat muutub WSS väärtus pärast küünarnuki punkti väga aeglaselt, nii et klastrite arvu lõpliku väärtuse saamiseks tuleb arvestada küünarnuki punktiga.

Eesmärgipõhine

Selle meetodi korral jagatakse andmed erinevate mõõdikute põhjal ja seejärel hinnatakse, kui hästi need sellel juhul toimisid. Näiteks kaubanduskeskuses meeste rõivaosakonnas särkide paigutus toimub suuruste kriteeriumide alusel. Seda saab teha hinna ja kaubamärkide alusel. Kõige sobivam oleks valida optimaalne klastrite arv, st K väärtus.

Nüüd lubage meil naasta meie ülaltoodud andmekogu juurde. Klasside arvu, st K väärtuse, saame arvutada ükskõik millise ülaltoodud meetodi abil.

Kuidas kasutada ülaltoodud meetodeid?

Vaadakem nüüd täitmisprotsessi:

1. samm: lähtestamine

Esiteks initsialiseerige kõik juhuslikud punktid, mida nimetatakse klastri keskpunktideks. Initsialiseerimisel peate hoolitsema selle eest, et klastri tsentrid oleksid vähem kui treeningu andmepunktide arv. See algoritm on iteratiivne algoritm, seega viiakse kaks järgmist sammu läbi iteratiivselt.

2. samm: klastri määramine

Pärast lähtestamist läbitakse kõik andmepunktid ja arvutatakse kõigi keskpunktide ja andmepunktide vaheline kaugus. Nüüd moodustuksid klastrid sõltuvalt minimaalsest kaugusest tsentroididest. Selles näites on andmed jagatud kahte klastrisse.

3. samm: liigutav Centroid

Kuna ülaltoodud etapis moodustatud klastrid ei ole optimeeritud, peame moodustama optimeeritud klastrid. Selleks peame keskpunkti iteratiivselt uude asukohta viima. Võtke ühe klastri andmepunktid, arvutage nende keskmine ja liigutage seejärel klastri keskpunkt uude asukohta. Korrake sama sammu kõigi teiste klastritega.

4. samm: optimeerimine

Kaks ülaltoodud sammu tehakse iteratiivselt, kuni tsentroidid lakkavad liikuma, st nad ei muuda enam oma positsioone ja on muutunud staatilisteks. Kui see on tehtud, nimetatakse k- tähendab algoritmi ühtlustumiseks.

5. samm: lähenemine

Nüüd on see algoritm ühtlustunud ja moodustatud on erinevad klastrid, mis on selgelt nähtavad. See algoritm võib anda erinevaid tulemusi sõltuvalt sellest, kuidas klastrid esimeses etapis initsialiseeriti.

K-vahendite klasterdamisalgoritmi rakendused

Turu segmenteerimine
Dokumentide rühmitamine
Kujutise segmenteerimine
Kujutise pakkimine
Vektori kvantimine
Klastrianalüüs
Tunnusõpe või sõnaraamatus õppimine
Kuritegevuse ohustatud piirkondade tuvastamine
Kindlustuspettuste avastamine
Ühistranspordi andmete analüüs
IT varade koondamine
Klientide segmenteerimine
Vähktõve andmete tuvastamine
Kasutatakse otsingumootorites
Uimastitegevuse ennustamine

K-vahendite klasterdamisalgoritmi eelised

See on kiire
Tugev
Lihtne arusaada
Võrdlemisi tõhus
Kui andmekogumid erinevad, annab see parima tulemuse
Luua tihedamaid kobaraid
Tsentroidide ümberarvutamisel klaster muutub.
Paindlik
Lihtne tõlgendada
Parem arvutuslik kulu
Suurendab täpsust
Toimib paremini sfääriliste klastritega

K- tähendab klasterdamisalgoritmi puudusi

Vajab klastrikeskuste arvu eelnevat täpsustamist
Kui on kaks omavahel kattuvat teavet, ei saa seda eristada ega saa öelda, et klastrit on kaks
Andmete erineva esindatuse korral on ka saavutatud tulemused erinevad
Eukliidne vahemaa võib tegureid kaaluda ebavõrdselt
See annab ruudu veafunktsiooni lokaalse optimaalsuse
Mõnikord ei saa tsentroidide juhuslik valimine viljakaid tulemusi anda
Saab kasutada ainult siis, kui tähendus on määratletud
Kõrvaliste ja mürarikkate andmetega ei saa hakkama
Ärge töötage mittelineaarse andmekogumiga
Puudub järjepidevus
Tundlik skaala suhtes
Kui ilmnevad väga suured andmekogumid, võib arvuti krahhi tekkida.
Ennustamisega seotud probleemid

Soovitatavad artiklid

See on olnud K-vahendite klasterdamisalgoritmi juhend. Siin arutasime K-Means klastrimisalgoritmi toimimist, rakendusi, eeliseid ja puudusi. Lisateavet leiate ka meie muudest soovitatud artiklitest -

Mis on närvivõrgud?
Mis on andmete kaevandamine? | Andmete kaevandamise roll
Andmete kaevandamise intervjuu küsimus
Masinõpe vs närvivõrk
Klastrid masinõppes

K- tähendab klasterdamisalgoritmi - Kuidas see töötab - Analüüs ja rakendamine

Lang L: none (table-of-contents):

K-vahendite klasterdamisalgoritmi sissejuhatus?

K- tähendab klaarimisalgoritmi mõistmist

Kuidas K-rühmituse algoritm töötab?

Küünarliigese meetod

Eesmärgipõhine

Kuidas kasutada ülaltoodud meetodeid?

1. samm: lähtestamine

2. samm: klastri määramine

3. samm: liigutav Centroid

4. samm: optimeerimine

5. samm: lähenemine

K-vahendite klasterdamisalgoritmi rakendused

K-vahendite klasterdamisalgoritmi eelised

K- tähendab klasterdamisalgoritmi puudusi

Soovitatavad artiklid

Laen vs hüpoteek - 7 parimat erinevust (infograafikaga)

Lokaliseerimine vs rahvusvahelistumine - 7 parimat kasulikku erinevust õppimiseks

LN Excelis (valem, näited) - Kuidas LN-funktsiooni kasutada?

Laen vs rent - 7 parimat kasulikku erinevust õppimiseks (koos infograafikaga)

Pikaajaliste kohustuste näide Mitmed näited pikaajalistest kohustustest

Kümme küsimust ja vastust OOP-ga 10 parimat küsimust (värskendatud 2019 jaoks)

Õlivärvide filter Photoshopis - Kuidas kasutada õlivärvifiltrit Photoshopis

8 parimat olulist ohoo Java-intervjuu küsimust (värskendatud 2019 jaoks)

Veebisaidi ehitaja - 10 parimat veebisaidi koostajat (juhend)

Veebiturundusstrateegiate tõhusad plussid ja miinused

Installige Bugzilla - Bugzilla installimine akendesse samm-sammult

Installige alglaadimissüsteem - Boostrapi paigaldamise täielik juhend

Installige Apache - Apache installimise lihtsad sammud

Installige Blender - Blenderi installimise nõue ja samm-sammuline protsess

Installige Adobe Premiere Pro - Adobe Premiere Pro installimise ja installimise sammud