Sissejuhatus klasterdamismeetoditesse

See artikkel annab ülevaate erinevatest põhimõtetest koosnevate andmete kaevandamise tehnikates kasutatavate klastrimeetodite kohta. Klasterdamine on andmeobjektide kogum, mis on jaotatud erinevatesse loogilistesse rühmadesse. Sarnaste andmeüksuste rühmitamine ja sarnaste andmeüksuste määramine üksikuteks klastriteks. Rühmitamine toimub suurtes andmekogumites juhendamata õppe jaoks. Selle käigus jaotame andmete kogumi rühmadesse. Klastrite struktuur on alamhulkadega esindatud järgmiselt. C = c1, c2… c n . Kuna rühmitusrühmadel on sarnased eesmärgid, tuleb kauguse ja sarnasuse määramiseks klastrimeetodites võtta mõned meetmed. Klastrimeetodid põhinevad tõenäosuslikel mudelitel. Andmete kaevandamine nõuab kõrgete andmebaasidega tegelemiseks mastaapsuse klasterdamist, mitmemõõtmelise ruumi käsitlemist, ekslike andmete ja müraga tegelemist.

Selgitage klastrimismeetodeid?

See rühmitusmeetod aitab väärtuslikku teavet rühmadesse grupeerida ja sellest lähtuvalt saadakse erinevatel meetoditel põhinevad sobivad tulemused. Näiteks teabe otsimisel rühmitatakse päringu tulemused väikestesse klastritesse ja igal klastril on ebaolulised tulemused. Klastritehnikate abil rühmitatakse need sarnastesse kategooriatesse ja iga kategooria jagatakse alamkategooriateks, et aidata uurida päringuid. Klastrimismeetodeid on erinevat tüüpi, need on

  • Hierarhilised meetodid
  • Jaotusmeetodid
  • Tiheduspõhine
  • Mudelipõhine klasterdamine
  • Võrgupõhine mudel

Järgnevalt antakse ülevaade andmekaevandamises ja tehisintellektis kasutatavatest tehnikatest.

1. Hierarhiline meetod

See meetod loob klastri, jagades kas ülalt alla ja alt üles. Mõlemad lähenemisviisid tekitavad dendrogrammi, mis loob nende vahel ühenduvuse. Dendrogramm on puu moodi formaat, mis hoiab ühendatud klastrite jada. Hierarhiliste meetodite järgi luuakse sarnasuse taseme osas mitu partitsiooni. Need jagunevad aglomeratiivseteks hierarhilisteks rühmitusteks ja jagatavateks hierarhilisteks klastriteks. Siin luuakse klastripuu ühendamistehnikate abil. Protsesside jagamiseks kasutatakse jagamist, liitmisel kasutatakse aglomeratiivseid. Aglomeratiivne klasterdamine hõlmab:

  1. Alguses võetakse kõik andmepunktid ja peetakse neid üksikuteks klastriteks ülalt alla. Need klastrid ühendatakse, kuni oleme saavutanud soovitud tulemused.
  2. Kaks järgmist sarnast klastrit on rühmitatud, moodustades tohutu ühe klastri.
  3. Jällegi arvutage tohutu klastri lähedus ja ühendage sarnased klastrid.
  4. Viimane samm hõlmab kõigi saadud klastrite ühendamist igal etapil, et moodustada lõplik üksikklaster.

2. Jaotusmeetod:

Partitsiooni peamine eesmärk on ümberpaigutamine. Nad paigutavad partitsioonid ümber, liikudes klastrilt teisele, mis teeb algse jaotuse. See jagab n-andmeobjektid k-rühmade arvuks. Seda jaotuse meetodit eelistatakse rohkem kui hierarhilist mudelit mustrituvastuses. Meetodite rahuldamiseks on seatud järgmised kriteeriumid:

  • Igas klastris peaks olema üks objekt.
  • Iga andmeobjekt kuulub ühte klastrisse.

Kõige sagedamini kasutatavad jaotustehnikad on K-algoritm. Need jagunevad K-klastriteks, mida tähistavad tsentrid. Iga klastri keskpunkt arvutatakse selle klastri keskmisena ja funktsioon R visualiseerib tulemuse. Sellel algoritmil on järgmised sammud:

  1. K-objekti valimine andmekogumist juhuslikult ja moodustab esialgsed keskpunktid (tsentrid)
  2. Järgmine määramine Eukleidese kaugusele objektide ja keskmise keskpunkti vahel.
  3. Igale klastrile keskmise väärtuse määramine.
  4. Centroidi värskendamise sammud iga k-klastri jaoks.

3. Tihedusmudel:

Selles mudelis määratletakse klastrid suurema tihedusega piirkondade paiknemisega klastrisse. Nende peamine põhimõte on keskendumine kahele parameetrile: naabruskonna maksimaalne raadius ja minimaalne punktide arv. Tiheduspõhine mudel tuvastab erineva kuju ja müraga klastrid. See toimib mustrite tuvastamise abil, hinnates ruumilist asukohta ja kaugust naabri meetodist, mida siin kasutatakse, on DBSCAN (tiheduspõhine ruumiline klaster), mis annab käed suurte ruumiliste andmebaaside jaoks. Kolme andmepunkti kasutamine rühmitamiseks, nimelt põhipunktid, piiripunktid ja välimised. Esmane eesmärk on klastrite ja nende jaotuse parameetrite tuvastamine. Klastriprotsess peatatakse vajaduse korral tihedusparameetritega. Klastrite leidmiseks on südamiku kauguse arvutamisel oluline omada parameetrit Minimaalsed omadused klastri kohta. Selle mudeli pakutavad kolm erinevat tööriista on DBSCAN, HDBSCAN, Multi-scale.

4. Mudelipõhine klasterdamine

See mudel ühendab andmejaotusest kaks või kolm klastrit. Selle mudeli põhiidee on see, et andmed tuleb jagada tõenäosusmudeli (mitme muutujaga normaaljaotused) alusel kahte rühma. Siin määratakse iga rühm mõistete või klassina. Iga komponenti määratleb tihedusfunktsioon. Selle mudeli parameetri leidmiseks kasutatakse segu jaotuse sobitamiseks maksimaalse tõenäosuse hinnangut. Iga klastri K modelleerimine toimub Gaussi jaotuse järgi kaheparameetrilise µ k keskmise vektori ja £ k kovariatsioonivektoriga.

5. Võrgupõhine mudel

Selle lähenemisviisi puhul peetakse objekte ruumi juhitavaks, jagades ruumi lõplikuks arvuks lahtriteks ruutvõrgu moodustamiseks. Võrgu abil rakendatakse klastritehnikat kiiremaks töötlemiseks, mis sõltub tavaliselt lahtritest, mitte objektidest. Kaasatud on järgmised sammud:

  • Võrgustiku struktuuri loomine
  • Rakkude tihedus arvutatakse iga lahtri kohta
  • Nende tiheduse suhtes sortimismehhanismi rakendamine.
  • Protsessi korramiseks otsitakse klastrikeskustest ja naaberakkudest liikumist.

Klasterdamismeetodite olulisus

  1. Klastrimismeetodite omamine aitab kohaliku otsingu protseduuri taaskäivitada ja ebatõhususe eemaldada. Klasterdamine aitab kindlaks teha andmete sisemise struktuuri.
  2. Seda klastrianalüüsi on kasutatud mudelanalüüsiks, vektori tõmbepiirkonnaks.
  3. Rühmitamine aitab mõista looduslikku rühmitamist andmekogumis. Nende eesmärk on mõistlik jaotada andmed mingitesse loogilistesse rühmadesse.
  4. Klastrikvaliteet sõltub meetoditest ja peidetud mustrite tuvastamisest.
  5. Nad mängivad suurt rolli sellistes rakendustes nagu turundus-majandusuuringud, veebipäevikud sarnasuse mõõtmete mustrite tuvastamiseks, pilditöötlus, ruumiuuringud.
  6. Neid kasutatakse väliste tuvastamiste korral krediitkaardiga seotud pettuste tuvastamiseks.

Järeldus

Klastrimist peetakse optimeerimise probleemi sõnastava probleemi lahendamiseks üldiseks ülesandeks. See mängib andmekaevandamise ja andmete analüüsi valdkonnas võtmerolli. Oleme näinud erinevaid klastrimeetodeid, mis jagavad andmekogumi sõltuvalt nõuetest. Suurem osa uurimistööst põhineb traditsioonilistel tehnikatel, nagu K-vahendid ja hierarhilised mudelid. Klastripiirkondi rakendatakse kõrgmõõtmelistes olekutes, mis moodustab teadlaste tulevikuala.

Soovitatav artikkel

See on olnud klastrimismeetodite juhend. Siin arutasime klasterdamismeetodite kontseptsiooni, olulisust ja tehnikaid. Lisateavet leiate ka meie muudest soovitatud artiklitest -

  1. Mis on ETL?
  2. Mis on andmeteadus
  3. Mis on Teradata?
  4. 6 parimat AWS-i alternatiivi
  5. Klastrid masinõppes
  6. Mitme muutujaga regressioon
  7. Hierarhiline rühmitus | Aglomeratiivne ja lõhestav klasterdamine

Kategooria: