K-vahendite klasterdamisalgoritmi sissejuhatus?

K-vahendite klasterdamine kuulub juhendamata õppealgoritmi. Seda kasutatakse juhul, kui andmed pole määratletud rühmade või kategooriatena, st märgistamata andmed. Selle klastrialgoritmi eesmärk on otsida ja leida andmetest rühmi, kus muutuja K tähistab rühmade arvu.

K- tähendab klaarimisalgoritmi mõistmist

See algoritm on iteratiivne algoritm, mis jaotab andmekogumi vastavalt nende omadustele K-arvuks eelnevalt määratletud mittekattuvateks eraldiseisvateks klastriteks või alarühmadeks. See muudab klastrite vahelised andmepunktid võimalikult sarnaseks ja püüab klastrid hoida nii palju kui võimalik. See eraldab andmepunktid klastrisse, kui klastri tsentriidi ja andmepunktide vaheline ruutkauguse summa on minimaalne, kui klastri tsentrid on klastris asuvate andmepunktide aritmeetiline keskmine. Klastri väiksema variatsiooni tulemuseks on klastri sarnased või homogeensed andmepunktid.

Kuidas K-rühmituse algoritm töötab?

K- tähendab klastrimisalgoritmi vajab järgmisi sisendeid:

  • K = alarühmade või klastrite arv
  • Proov või treeningkomplekt = (x 1, x 2, x 3, ……… x n )

Oletagem nüüd, et meil on andmesidekomplekt, mis pole märgistatud ja peame selle jagama klastriteks.

Nüüd peame leidma klastrite arvu. Seda saab teha kahel viisil:

  • Küünarliigese meetod.
  • Eesmärgi meetod.

Arutame neid lühidalt:

Küünarliigese meetod

Selle meetodi korral tõmmatakse kõver ruutude summa piires (WSS) ja klastrite arvu vahel. Joonistatud kõver sarnaneb inimese käega. Seda nimetatakse küünarnuki meetodiks, kuna küünarnuki punkt kõver annab meile optimaalse klastrite arvu. Pärast graafikut või kõverat muutub WSS väärtus pärast küünarnuki punkti väga aeglaselt, nii et klastrite arvu lõpliku väärtuse saamiseks tuleb arvestada küünarnuki punktiga.

Eesmärgipõhine

Selle meetodi korral jagatakse andmed erinevate mõõdikute põhjal ja seejärel hinnatakse, kui hästi need sellel juhul toimisid. Näiteks kaubanduskeskuses meeste rõivaosakonnas särkide paigutus toimub suuruste kriteeriumide alusel. Seda saab teha hinna ja kaubamärkide alusel. Kõige sobivam oleks valida optimaalne klastrite arv, st K väärtus.

Nüüd lubage meil naasta meie ülaltoodud andmekogu juurde. Klasside arvu, st K väärtuse, saame arvutada ükskõik millise ülaltoodud meetodi abil.

Kuidas kasutada ülaltoodud meetodeid?

Vaadakem nüüd täitmisprotsessi:

1. samm: lähtestamine

Esiteks initsialiseerige kõik juhuslikud punktid, mida nimetatakse klastri keskpunktideks. Initsialiseerimisel peate hoolitsema selle eest, et klastri tsentrid oleksid vähem kui treeningu andmepunktide arv. See algoritm on iteratiivne algoritm, seega viiakse kaks järgmist sammu läbi iteratiivselt.

2. samm: klastri määramine

Pärast lähtestamist läbitakse kõik andmepunktid ja arvutatakse kõigi keskpunktide ja andmepunktide vaheline kaugus. Nüüd moodustuksid klastrid sõltuvalt minimaalsest kaugusest tsentroididest. Selles näites on andmed jagatud kahte klastrisse.

3. samm: liigutav Centroid

Kuna ülaltoodud etapis moodustatud klastrid ei ole optimeeritud, peame moodustama optimeeritud klastrid. Selleks peame keskpunkti iteratiivselt uude asukohta viima. Võtke ühe klastri andmepunktid, arvutage nende keskmine ja liigutage seejärel klastri keskpunkt uude asukohta. Korrake sama sammu kõigi teiste klastritega.

4. samm: optimeerimine

Kaks ülaltoodud sammu tehakse iteratiivselt, kuni tsentroidid lakkavad liikuma, st nad ei muuda enam oma positsioone ja on muutunud staatilisteks. Kui see on tehtud, nimetatakse k- tähendab algoritmi ühtlustumiseks.

5. samm: lähenemine

Nüüd on see algoritm ühtlustunud ja moodustatud on erinevad klastrid, mis on selgelt nähtavad. See algoritm võib anda erinevaid tulemusi sõltuvalt sellest, kuidas klastrid esimeses etapis initsialiseeriti.

K-vahendite klasterdamisalgoritmi rakendused

  • Turu segmenteerimine
  • Dokumentide rühmitamine
  • Kujutise segmenteerimine
  • Kujutise pakkimine
  • Vektori kvantimine
  • Klastrianalüüs
  • Tunnusõpe või sõnaraamatus õppimine
  • Kuritegevuse ohustatud piirkondade tuvastamine
  • Kindlustuspettuste avastamine
  • Ühistranspordi andmete analüüs
  • IT varade koondamine
  • Klientide segmenteerimine
  • Vähktõve andmete tuvastamine
  • Kasutatakse otsingumootorites
  • Uimastitegevuse ennustamine

K-vahendite klasterdamisalgoritmi eelised

  • See on kiire
  • Tugev
  • Lihtne arusaada
  • Võrdlemisi tõhus
  • Kui andmekogumid erinevad, annab see parima tulemuse
  • Luua tihedamaid kobaraid
  • Tsentroidide ümberarvutamisel klaster muutub.
  • Paindlik
  • Lihtne tõlgendada
  • Parem arvutuslik kulu
  • Suurendab täpsust
  • Toimib paremini sfääriliste klastritega

K- tähendab klasterdamisalgoritmi puudusi

  • Vajab klastrikeskuste arvu eelnevat täpsustamist
  • Kui on kaks omavahel kattuvat teavet, ei saa seda eristada ega saa öelda, et klastrit on kaks
  • Andmete erineva esindatuse korral on ka saavutatud tulemused erinevad
  • Eukliidne vahemaa võib tegureid kaaluda ebavõrdselt
  • See annab ruudu veafunktsiooni lokaalse optimaalsuse
  • Mõnikord ei saa tsentroidide juhuslik valimine viljakaid tulemusi anda
  • Saab kasutada ainult siis, kui tähendus on määratletud
  • Kõrvaliste ja mürarikkate andmetega ei saa hakkama
  • Ärge töötage mittelineaarse andmekogumiga
  • Puudub järjepidevus
  • Tundlik skaala suhtes
  • Kui ilmnevad väga suured andmekogumid, võib arvuti krahhi tekkida.
  • Ennustamisega seotud probleemid

Soovitatavad artiklid

See on olnud K-vahendite klasterdamisalgoritmi juhend. Siin arutasime K-Means klastrimisalgoritmi toimimist, rakendusi, eeliseid ja puudusi. Lisateavet leiate ka meie muudest soovitatud artiklitest -

  1. Mis on närvivõrgud?
  2. Mis on andmete kaevandamine? | Andmete kaevandamise roll
  3. Andmete kaevandamise intervjuu küsimus
  4. Masinõpe vs närvivõrk
  5. Klastrid masinõppes

Kategooria: