Mis on klastrianalüüs

Klastrianalüüs grupeerib andmed nende omaduste põhjal. Klastrianalüüs rühmitab objektid tegurite põhjal, mis muudavad need sarnaseks. Klastrianalüüsi nimetatakse muidu segmentatsioonianalüüsiks või taksonoomiaanalüüsiks. Klastrianalüüs ei erista sõltuvaid ja sõltumatuid muutujaid. Klastrianalüüsi kasutatakse väga erinevates valdkondades nagu psühholoogia, bioloogia, statistika, andmete kaevandamine, mustrituvastus ja muud sotsiaalteadused.

Klastrianalüüsi eesmärk

Klastrianalüüsi peamine eesmärk on käsitleda iga andmekogumi heterogeensust. Muud klastrianalüüsi eesmärgid on:

  • Taksonoomia kirjeldus - andmetes rühmade tuvastamine
  • Andmete lihtsustamine - võime analüüsida kõigi üksikute vaatluste asemel sarnaste vaatluste rühmi
  • Hüpoteesi genereerimine või testimine - andmete olemusel põhineva hüpoteesi väljatöötamine või eelnevalt välja toodud hüpoteesi testimine
  • Suhete tuvastamine - klastrianalüüsi lihtsustatud struktuur, mis kirjeldab seoseid

Klastrianalüüsil on kaks peamist eesmärki - mõistmine ja utiliit.

Arusaamise tingimustes grupeerib klastrianalüüs objektid, millel on mõned ühised omadused

Utiliidi abil pakub klastrianalüüs iga andmeobjekti omadusi klastritele, kuhu nad kuuluvad.

Klastrianalüüs käib käsikäes faktoranalüüsi ja diskrimineeriva analüüsiga.

Enne selle alustamist peaksite endalt küsima paar klastrianalüüsi küsimust

  • Millised muutujad on olulised?
  • Kas valimi suurus on piisav?
  • Kas kõrvalnähte saab tuvastada ja kas need tuleks eemaldada?
  • Kuidas tuleks mõõta sarnasust?
  • Kas andmed tuleks normeerida?

Klastrite tüübid

Seal on kolm peamist rühmitustüüpi

  • Hierarhiline klasterdamine - mis sisaldab aglomeratiivset ja jagavat meetodit
  • Osadeks jaotamine - selle all on K-vahendid, hägused K-vahendid, Isodata
  • Tiheduspõhine klasterdamine - selle all on Denclust, CLUPOT, Mean Shift, SVC, Parzen-Watershed

Klastrianalüüsi eeldused

Klastrianalüüsis on alati kaks eeldust

  • Eeldatakse, et valim on elanikkonna esindaja
  • Eeldatakse, et muutujad ei ole korrelatsioonis. Isegi kui muutujad on korrelatsioonis, eemaldage korrelatiivsed muutujad või kasutage korrelatsiooni kompenseeriva vahemaa mõõtmeid.

Klastrianalüüsi sammud

    • 1. samm: määratlege probleem
    • 2. samm: otsustage sobiv sarnasuse mõõt
    • 3. samm: otsustage, kuidas objekte grupeerida
    • 4. samm: otsustage klastrite arv
    • 5. samm: klastri tõlgendamine, kirjeldamine ja valideerimine

Klastrianalüüs SPSS-is

SPSS-is leiate klastrianalüüsi suvandi Analüüs / klassifitseerimine. SPSS-is on klastri analüüsi jaoks kolm meetodit - K-vahendite klaster, hierarhiline klaster ja kaheastmeline klaster.

K-Meansi klastrimeetod klassifitseerib antud andmekogumi kindla arvu klastrite kaudu. Seda meetodit on lihtne mõista ja see annab parima väljundi, kui andmed on üksteisest hästi eraldatud.

Kaheetapiline klastrianalüüs on tööriist, mis on loodud suurte andmekogumite käsitlemiseks. See loob klastrid nii kategoorilistel kui pidevatel muutujatel.

Hierarhiline klaster on klastrianalüüsi kõige sagedamini kasutatav meetod. See ühendab juhtumid homogeenseteks klastriteks, koondades need järjestikuste sammude kaupa.

Hierarhiline klastrianalüüs sisaldab kolme etappi

  • Arvutage vahemaa
  • Siduge klastrid
  • Lahenduse valimine, valides õige arvu klastrid

Allpool on toodud sammud hierarhilise klastri analüüsi teostamiseks SPSS-is.

  • Esimene samm on valida muutujad, mis tuleb rühmitada. Allpool olev dialoogiboks selgitab seda teile
  • Kui klõpsate ülaltoodud dialoogiboksis statistikavalikut, saate dialoogiboksi, kus soovite väljundit täpsustada
  • Dialoogiboksi graafikutel lisage Dendrogramm. Dendrogramm on hierarhilise klastri analüüsimeetodi graafiline esitus. See näitab, kuidas klastrid igal sammul ühendatakse, kuni see moodustab ühe klastri.
  • Dialoogiboksi meetod on ülioluline. Siin saab mainida kaugust ja klastrimismeetodit. SPSS-is on kolm intervalli, loenduste ja kahendandmete mõõtmist.
  • Ruutmeetriidi vahemaa on ruutude erinevuste summa ruutjuure võtmata.
  • Loendites saate valida Chi ruudu ja Phi ruudu mõõtmete vahel
  • Binaarses jaotises on teil palju valikuid. Parim valik on ruutmeetriline eukleidiline vahemaa.
  • Järgmine samm on klastrimeetodi valimine. Alati on soovitatav kasutada üksikut lüli või lähimat naabrit, kuna see aitab hõlpsalt kõrvalnähte tuvastada. Pärast kõrvalnäitajate tuvastamist saate kasutada Wardi meetodit.
  • Viimane samm on standardimine

Klastrianalüüsi kriitika

Kõige tavalisemad kriitikad on loetletud allpool

  • See on kirjeldav, teoreetiline ja mitte järelduslik.
  • See loob klastrid sõltumata mis tahes struktuuri tegelikust olemasolust
  • Seda ei saa laialdaselt kasutada, kuna see sõltub täielikult muutujatest, mida kasutatakse sarnasuse mõõtmise alusena

Mis on faktoranalüüs?

Faktorianalüüs on uuriv analüüs, mis aitab grupeerida sarnased muutujad mõõtmetesse. Seda saab kasutada andmete lihtsustamiseks, vähendades vaatluste mõõtmeid. Faktorianalüüsil on mitu erinevat rotatsiooni meetodit.

Faktorianalüüsi kasutatakse enamasti andmete vähendamiseks.

Faktorianalüüsi on kahte tüüpi - uuriv ja kinnitav

  • Uurimismeetodit kasutatakse juhul, kui teil pole eelnevalt määratletud ettekujutust muutujate komplekti struktuuridest või mõõtmetest.
  • Kinnitusmeetodit kasutatakse siis, kui soovite testida konkreetset hüpoteesi muutujate komplekti struktuuride või mõõtmete kohta.

Faktorianalüüsi eesmärgid

Faktorianalüüsil on kaks peamist eesmärki, mida mainitakse allpool

  • Alustegurite kindlaksmääramine - see hõlmab muutujate grupeerimist homogeenseteks kogumiteks, uute muutujate loomist ja kategooriate tundmaõppimist.
  • Muutujate sõelumine - see on abiks regressioonil ja tuvastab rühmitused, et saaksite valida ühe muutuja, mis tähistab paljusid.

Faktorianalüüsi eeldused

Faktorianalüüsil on neli peamist eeldust, mida mainitakse allpool

  • Mudelid põhinevad tavaliselt lineaarsetel suhetel
  • See eeldab, et kogutud andmed on intervalliskaalaga
  • Andmete mitmekeelsus on soovitav, kuna eesmärk on välja selgitada omavahel seotud muutujate kogum
  • Andmed peaksid olema tegurianalüüsiks avatud ja reageerivad. See ei tohiks olla nii, et muutuja korreleeritakse ainult iseendaga ja korrelatsiooni ühegi teise muutujaga ei eksisteeri. Faktorianalüüsi selliste andmete kohta teha ei saa.

Faktoringu liigid

  • Põhikomponendi faktooring - kõige sagedamini kasutatav meetod, kus koefitsientide kaal arvutatakse nii, et saadakse maksimaalne võimalik dispersioon ja seda jätkatakse seni, kuni tähenduslikku dispersiooni ei jää.
  • Kanooniline faktorianalüüs - leitakse tegurid, millel on täheldatud muutujatega kõrgeim kanooniline korrelatsioon
  • Ühine tegurianalüüs - otsib vähimat arvu tegureid, mis võimaldavad arvestada muutujate kogumi ühist dispersiooni
  • Kujutise faktooring - põhineb korrelatsioonimaatriksil, kus iga muutujat ennustatakse teistega, kasutades mitut regressiooni
  • Alfafaktorimine - maksimeerib tegurite usaldusväärsust
  • Faktori regressioonimudel - tegurimudeli ja regressioonimudeli kombinatsioon, mille tegurid on osaliselt teada

Faktorianalüüsi kriteeriumid

  1. Eigenvalue kriteeriumid

  • Esitab algtegurites esineva dispersioonimäära, mis on seotud teguriga
  • Iga muutuja teguri koormuste ruudu summa tegurile tähistab omaväärtust
  • Tegurid, mille omaväärtused on suuremad kui 1, 0, hoitakse
  1. Scree Krundi kriteeriumid

  • Omaväärtuste graafik tegurite arvu suhtes ekstraheerimise järjekorras.
  • Krundi kuju määrab tegurite arvu
  1. Variatsioonikriteeriumide protsent

  • Ekstraheeritud tegurite arv leitakse nii, et tegurite eraldatud dispersiooni protsentuaalne protsent tõuseb rahulolu tasemele.
  1. Tähtsustesti kriteeriumid

  • Selgitatakse välja eraldi omaväärtuste statistiline tähtsus ja säilitatakse ainult need statistiliselt olulised tegurid

Faktorianalüüsi kasutatakse erinevates valdkondades nagu psühholoogia, sotsioloogia, politoloogia, haridus ja vaimne tervis.

Faktorianalüüs SPSS-is

SPSS-is saab faktorianalüüsi valiku leida Analüüs - mõõtmete vähendamine - tegur

  • Alustage muutujate lisamisega muutujate loendisse
  • Klõpsake vahekaarti Kirjeldav ja lisage vähe statistikat, mille alusel kontrollitakse faktoranalüüsi eeldusi.
  • Klõpsake suvandit Kaevandamine, mis võimaldab teil valida kaevandamise meetodi ja eraldada kaevandamise väärtus
  • Põhikomponendid (PCA) on vaikimisi ekstraheerimise meetod, mis eraldab muutujate isegi korrelatsioonita lineaarsed kombinatsioonid. PCA-d saab kasutada juhul, kui korrelatsioonimaatriks on ainsus. See on väga sarnane kanoonilise korrelatsioonianalüüsiga, kus esimesel teguril on maksimaalne dispersioon ja järgmised tegurid selgitavad dispersiooni väiksemat osa.
  • Teine kõige üldisem analüüs on põhitelje faktooring. See tuvastab vaatluste taga olevad varjatud konstruktsioonid.
  • Järgmine samm on valida pöörlemismeetod. Kõige sagedamini kasutatav meetod on Varimax. See meetod lihtsustab tegurite tõlgendamist.
  • Teine meetod on Quartimax. See meetod pöörab tegureid, et minimeerida tegurite arvu. See lihtsustab vaadeldava muutuja tõlgendamist.
  • Järgmine meetod on Equamax, mis on kahe ülaltoodud meetodi kombinatsioon.
  • Dialoogiboksis valikul klikkides saate hallata puuduvaid väärtusi
  • Enne tulemuste andmekogumisse salvestamist käivitage esmalt faktoranalüüs ja kontrollige eeldusi ning veenduge, et tulemused on asjalikud ja kasulikud.

Klastrianalüüs vs faktoranalüüs

Nii klastrianalüüs kui ka faktoranalüüs on juhendamata õppemeetod, mida kasutatakse andmete segmentimiseks. Paljud teadlased, kes on selles valdkonnas uued, leiavad, et klastrianalüüs ja faktorianalüüs on sarnased. See võib tunduda sarnane, kuid need erinevad mitmeti. Allpool on toodud klastrianalüüsi ja faktoranalüüsi erinevused

  • Objektiivne

Klastrite ja faktoranalüüside eesmärk on erinev. Klastrianalüüsi eesmärk on jagada vaatlused homogeenseteks ja eraldiseisvateks rühmadeks. Faktorianalüüs seletab teiselt poolt väärtuste sarnasusest tuleneva muutujate homogeensust.

  • Keerukus

Keerukus on veel üks tegur, mille puhul klastrid ja faktorianalüüsid erinevad. Andmete suurus mõjutab analüüsi erinevalt. Kui andmete suurus on liiga suur, muutub see klastrianalüüsis arvutuslikult raskesti kasutatavaks.

  • Lahendus

Probleemi lahendus on enam-vähem sarnane nii faktori- kui klastrianalüüsis. Kuid faktorianalüüs pakub uurijale paremat lahendust paremas aspektis. Klastrianalüüs ei anna parimat tulemust, kuna klastrianalüüsis on kõik algoritmid arvutuslikult ebaefektiivsed.

  • Rakendused

Faktorianalüüsi ja klastrianalüüsi rakendatakse tegelike andmete suhtes erinevalt. Faktorianalüüs sobib keerukate mudelite lihtsustamiseks. See taandab suure muutujate hulga palju väiksemaks teguriteks. Teadlane saab välja töötada hüpoteesi komplekti ja käivitada faktoranalüüsi, et seda hüpoteesi kinnitada või ümber lükata.

Klastrianalüüs sobib objektide klassifitseerimiseks teatud kriteeriumide alusel. Teadlane saab klastri analüüsi abil mõõta rühma teatud aspekte ja jagada need konkreetseteks kategooriateks.

Samuti on palju muid erinevusi, mida allpool mainitakse

  • Klastrianalüüs proovib juhtumeid grupeerida, faktoranalüüs aga proovib tunnuseid grupeerida.
  • Klastrianalüüsi kasutatakse väiksemate juhtumigruppide leidmiseks, mis esindavad andmeid tervikuna. Faktorianalüüsi kasutatakse väiksema funktsioonigrupi leidmiseks, mis esindaks andmekogumite algseid omadusi.
  • Klastrianalüüsi kõige olulisem osa on klastrite arvu leidmine. Põhimõtteliselt jagunevad rühmitusmeetodid kaheks - aglomeratiivseks ja jagamismeetodiks. Aglomeratiivne meetod algab iga juhtumi korral oma klastris ja peatub, kui kriteerium on saavutatud. Jaotusmeetod algab kõigil juhtudel ühes klastris.
  • Faktorianalüüsi kasutatakse andmete kogumi alusstruktuuri väljaselgitamiseks.

Järeldus

Loodetavasti oleks see artikkel aidanud teil mõista klastri analüüsi ja faktorite analüüsi põhialuseid ning nende kahe erinevusi.

Seotud kursused: -

  1. Klastrianalüüsi kursus

Kategooria: