Variatsiooni ühesuunaline analüüs

Vahetult ANOVA-na kirjutatud dispersioonanalüüs on protseduur, mille abil saame võrrelda kolme või enama populatsiooni keskmiseid. Statistiliselt joonistame kaks hüpoteesi, nullhüpoteesi: „Kõik populatsiooni keskmised on võrdsed“ ja alternatiivse hüpoteesi: „Kõik elanikkonna keskmised pole võrdsed“. See võimaldab meil testida mitme testi võrdsust ühes testis, mitte võrrelda kahte vahendit korraga, mis on võimatu, kui rühmi on mitu. Selles teemas õpime R-s One Way ANOVA kohta.

Variatsiooni ühesuunaline analüüs aitab meil analüüsida ainult ühte tegurit või muutujat. Näiteks on olemas viis piirkonda ja tahame kontrollida, kas kõigi viie piirkonna päevased keskmised sademed on võrdsed või on need erinevad. Sel juhul on ainult üks tegur, mis on piirkond, kuna me peame kontrollima, kas piirkondlikud tegurid mõjutavad sademete vastuvõttu ja nende kujunemist.

Variatsiooni analüüsi eeldused

Järgnevad on eeldused, mis peavad olema täidetud ühe suuna ANOVA rakendamisel:

  • Tavaliselt jaotatakse populatsioonid, millest proovid võetakse.
  • Proovide võtmise populatsioonidel on sama dispersioon või standardhälve.
  • Erinevatest populatsioonidest võetud proovid on juhuslikud ja sõltumatud.

Kuidas töötab ühesuunaline ANOVA R-s?

Oma demonstreerimiseks kasutame andmeid, mis sisaldavad kahte muutujat, nimelt. Bränd ja müük. Kaubamärke on neli - ATB, JKV, MKL ja PRQ. Antakse nende kaubamärkide igakuine müük. Peame kontrollima, kas nelja kaubamärgi keskmine läbimüük on võrdne või kas need erinevad üksteisest. Selle kinnitamiseks kasutame ühesuunalist ANOVA-d. Järkjärguline protseduur ANOVA rakendamiseks on järgmine:

  1. Esiteks importige andmed R-sse. Andmed esinevad CSV-vormingus. Selle importimiseks kasutame funktsiooni read.csv ().

  1. Vaadake andmete esimest paari kirjet. See on oluline, et kontrollida, kas andmed on õigesti R-sse imporditud. Samamoodi rakendame andmete suhtes kokkuvõtte () funktsiooni, et saada andmete kohta põhiteadmisi.

  1. Iga kord, kui me kasutame andmekogumis esinevaid muutujaid, peame me selgesõnaliselt nimetama andmestiku nime, näiteks brand_sales_data $ Brand või brand_sales_data $ Sales. Selle ületamiseks rakendame manustamisfunktsiooni. Funktsiooni tuleb rakendada järgmiselt.

  1. Liidetakse müük brändi järgi keskmise või standardhälbe abil. Koondamine aitab meil saada andmete idee.

Ülaltoodud tulemus näitab, et nelja erineva rühma vahendid pole võrdsed. JKV keskmine müük on kõrgeim.

Nagu ülalpool näha, ei näita nelja rühma standardhälbed olulist erinevust ja see on kõige suurem margi MKL puhul.

  1. Nüüd rakendame ANOVA-d, et kontrollida, kas kolme populatsiooni keskmised on võrdsed või on erinevusi.

Ülaltoodud tulemuste põhjal näeme, et ANOVA test Brandi jaoks on oluline, kuna p <0, 0001. Saame tõlgendada, et kõigil kaubamärkidel pole turul eelistuste tasemed ühesugused, mis mõjutab nende kaubamärkide müüki turul. Selle põhjuseks võivad olla paljud tegurid ja inimeste soov teatud kaubamärgi jaoks.

  1. Ülaltoodud tulemust saab visualiseerida ja see muudab tõlgendamise lihtsaks. Selleks kasutame gplots () teegis funktsiooni plotmeans (). See toimib järgmiselt:

Nagu ülal näeme, võimaldab funktsioon plotmeans () gplots paketis meil visuaalselt võrrelda erinevate rühmade võimalusi. Näeme, et nelja kaubamärgi puhul pole vahendid ühesugused. Brändide MKL ja PRQ vahendid on aga väga lähedal.

  1. Ülaltoodud analüüs aitab meil kontrollida, kas brändidel on võrdsed võimalused või mitte, kuid paaridevaheline võrdlemine on sellega keeruline. Saame erinevate kaubamärkide vahel paaritõenäoliselt võrrelda, kasutades funktsiooni TukeyHSD (), mis hõlbustab kontrollimist, kas bränd erineb oluliselt ülejäänud kaubamärgist.

Paarisvõrdlused nagu ülalpool. Erinevus kahe rühma vahel on oluline, kui p <0, 001. Nagu näeme ülalpool, on PRQ-MKL paari p-väärtus palju kõrgem, mis näitab, et kaks kaubamärki ei erine üksteisest oluliselt.

Paarisvõrdluste visuaalseks muutmiseks joonestame ülaltoodud tulemused järgmiselt:

Esimene par funktsioon pöörab telje sildid, muutes need horisontaalseks, ja teine ​​par avaldus reguleerib veeriseid nii, et sildid sobivad korralikult, vastasel juhul lähevad need ekraanilt välja.

Ülaltoodud graafik pakub head ülevaadet, kuid saame tulemused graafiku alusel joonistada, et saada paremat teavet selgemaks tõlgendamiseks, nagu allpool näidatud.

Ülalpool kasutatud funktsioon glht () pakub laiaulatuslikku meetodikomplekti mitme vahendi võrdlemiseks. Pange tähele, et funktsiooni cld () tasemevalik puudutab olulisuse taset, nt 0, 05 või 95 protsenti usaldus)

Ülaltoodud proovitükki kasutades on rühmade vahel hõlpsasti vahendeid võrrelda ning see hõlbustab ka süsteemset tõlgendamist. Iga tootemargi ülaosas on kirjad. Kui kahel kaubamärgil on sama täht, siis pole neil märkimisväärselt erinevaid vahendeid kui kaubamärkidel MKL ja PRQ, millel on sama täht b.

  1. Siiani rakendasime ANOVA ja kasutasime tulemuste visualiseerimiseks graafikuid. Sama oluline on aga ka eelduste testimine. Esiteks kinnitame normaalsuse eelduse.

R-s olev autopakett pakub funktsiooni qqPlot (). Ülaltoodud graafik näitab, et andmed jäävad 95% usalduspiiridesse. See näitab, et normaalsuse eeldus on peaaegu täidetud.

Järgmisena kontrollime, kas kaubamärkide erinevused on võrdsed. Selleks kasutame Bartletti testi

P-väärtus näitab, et erinevused rühmas ei erine oluliselt

Ja viimane, kuid mitte vähem tähtis, kontrollime, kas leidub ANOVA tulemusi mõjutavaid kõrvalekaldeid.

Ülaltoodud tulemuse põhjal näeme, et andmetes pole mingeid kõrvalekaldeid (NA ilmneb siis, kui p> 1)

Võttes arvesse QQ Plotti, Bartletti testi ja Outlier testi tulemusi, võime öelda, et andmed vastavad kõigile ANOVA eeldustele ja saadud tulemused on õiged.

Järeldus - ühesuunaline ANOVA R-s

ANOVA on väga mugav statistiline tehnika, mida saab kasutada mitme elanikkonna keskmiste võrdlemiseks. R pakub laia valikut pakette ANOVA rakendamiseks, tulemuste saamiseks ja eelduste kinnitamiseks. R-s saab statistilisi tulemusi tõlgendada visuaalsetes vormides, mis pakuvad sügavamat mõistmist.

Soovitatavad artiklid

See on juhend ühe suuna ANOVA kohta R. Siin käsitleme ANOVA ühesuunalise toimimise võimalusi ja dispersioonianalüüsi eeldusi. Võite lisateabe saamiseks vaadata ka järgmisi artikleid -

  1. R programmeerimiskeel
  2. Regressioon vs ANOVA
  3. Kuidas tõlgendada tulemusi ANOVA testi abil
  4. GLM R-s

Kategooria: