Sissejuhatus Poissoni regressiooni R-s
Poissoni regressioon on regressioonitüüp, mis sarnaneb mitme lineaarse regressiooniga, välja arvatud see, et vastus või sõltuv muutuja (Y) on loendusmuutuja. Sõltuv muutuja järgib Poissoni jaotust. Ennustaja või sõltumatud muutujad võivad olla olemuselt pidevad või kategoorilised. Mõnes mõttes sarnaneb see logistilise regressiooniga, millel on ka diskreetne reageerimise muutuja. Eelnev arusaam Poissoni jaotusest ja selle matemaatilisest vormist on väga oluline, et seda ennustamiseks kasutada. R-s saab Poissoni regressiooni rakendada väga tõhusal viisil. R pakub selle rakendamiseks terviklikku funktsioonide komplekti.
Poissoni regressiooni rakendamine
Nüüd saame aru, kuidas mudelit rakendatakse. Järgmises jaotises on toodud samm-sammuline protseduur sama jaoks. Selle demonstratsiooni jaoks kaalume paketi „faraway” „gala” andmekogumit. See puudutab Galapagose saarte liikide mitmekesisust. Andmekogumis on kokku 7 muutujat. Kasutame Poissoni regressiooni, et määratleda taimeliikide (liikide) arvu seos muude andmekogumis olevate muutujatega.
1. Esmalt laadige pakend “kauge”. Kui paketti pole, laadige see alla, kasutades funktsiooni install.packages ().
2. Kui pakend on laaditud, laadige “gala” andmestik R-sse, kasutades andmete () funktsiooni, nagu allpool näidatud.
3. Laetud andmed tuleb visualiseerida muutuja uurimiseks ja lahknevuste kontrollimiseks. Saame visualiseerida kas kogu andmed või ainult mõned neist esimesed read, kasutades funktsiooni head (), nagu on näidatud alloleval ekraanipildil.
4. Andmekogumist parema ülevaate saamiseks saame kasutada R-funktsiooni spikrifunktsioone nagu allpool. See genereerib R-dokumendid vastavalt allolevale ekraanipildile järgnevas ekraanipildis.
5. Kui uurime andmekogumit nagu eelmistes etappides mainitud, siis võime leida, et liik on vastusmuutuja. Uurime nüüd ennustaja muutujate põhikokkuvõtet.
Pange tähele, et nagu eespool näete, oleme välistanud muutuja Liigid. Kokkuvõttefunktsioon annab meile põhilisi teadmisi. Jälgige lihtsalt nende muutujate mediaanväärtusi ja võime leida, et esimese poole ja teise poole vahel on suur erinevus väärtuste vahemiku osas, nt pindala muutuja mediaanväärtus on 2, 59, kuid maksimaalne väärtus on 4669, 320.
6. Nüüd, kui põhianalüüs on lõpule jõudnud, genereerime liikide jaoks histogrammi, et kontrollida, kas muutuja järgib Poissoni jaotust. Seda on illustreeritud allpool.
Ülaltoodud kood genereerib liikide muutuja histogrammi koos selle kohal asetseva tiheduskõveraga.
Ülaltoodud visualiseerimine näitab, et liik järgib Poissoni jaotust, kuna andmed on paremale kaldu. Jaotamismustrist parema ülevaate saamiseks, nagu allpool näidatud, saame genereerida ka kastiplaadi.
7. Pärast eelanalüüsi tegemist rakendame nüüd Poissoni regressiooni, nagu allpool näidatud
Ülaltoodud analüüsi põhjal leiame, et muutujad Endemics, Area ja Lähim on olulised ja õige Poissoni regressioonimudeli ehitamiseks piisab ainult nende kaasamisest.
8. Ehitame modifitseeritud Poissoni regressioonimudeli, võttes arvesse ainult kolme muutujat. Endemika, ala ja lähim. Vaatame, milliseid tulemusi saame.
Väljund tekitab hälbed, regressiooniparameetrid ja standardvead. Näeme, et kõik parameetrid on olulised tasemel p <0, 05.
9. Järgmine samm on mudeli parameetrite tõlgendamine. Mudeli koefitsiente saab kas ülaltoodud väljundis koefitsientide uurimisega või funktsiooni coef () abil.
Poissoni regressioonis modelleeritakse sõltuv muutuja tingimusliku keskmise loge'i logina (l). Endemics'i regressiooniparameeter 0, 0355 näitab, et muutuja ühe ühiku suurenemine on seotud liikide logi keskmise arvu 0, 04 suurenemisega, hoides muutujaid muutumatuna. Peatükk on liikide keskmine arv logides, kui iga ennustaja võrdub nulliga.
10. Siiski on palju lihtsam tõlgendada regressioonikordajaid sõltuva muutuja algskaalas (liikide arv, mitte liikide arv logis). Koefitsientide paljundamine võimaldab seda hõlpsalt tõlgendada. Seda tehakse järgmiselt.
Ülaltoodud leidude põhjal võime öelda, et pindala ühe ühiku suurenemine korrutab eeldatava liikide arvu 0, 9999-ga ja Endemics esindatud endeemiliste liikide arvu ühiku suurenemine korrutab liikide arvu 1, 0361-ga. Poissoni regressiooni kõige olulisem aspekt on see, et eksponentsiaalsetel parameetritel on reageerimise muutujale pigem korrutav kui aditiivne mõju.
11. Ülaltoodud samme kasutades saime Poissoni regressioonimudeli taimeliikide arvu ennustamiseks Galapagose saartel. Siiski on väga oluline kontrollida ülehajumist. Poissoni regressioonis on dispersioon ja vahendid võrdsed.
Üledispersioon ilmneb siis, kui ravivastuse muutuja täheldatud dispersioon on suurem, kui Poissoni jaotus ennustaks. Üledispersiooni analüüsimine muutub oluliseks, kuna see on tavaline loendusandmetega, ja see võib lõpptulemusi negatiivselt mõjutada. R-is saab üledispersiooni analüüsida paketi „qcc” abil. Analüüsi on illustreeritud allpool.
Ülaltoodud oluline test näitab, et p-väärtus on väiksem kui 0, 05, mis viitab kindlalt üledispersioonile. Proovime sobitada mudeli, kasutades funktsiooni glm (), asendades perekonna = “Poisson” sõnaga “perekond =“ quasipoisson ”. Seda on illustreeritud allpool.
Ülaltoodud väljundit lähemalt uurides näeme, et kvaasipoiss-Poissoni lähenemisviisi parameetrite hinnangud on identsed Poissoni lähenemisviisi tulemustega, ehkki standardvead on mõlemal lähenemisviisil erinevad. Veelgi enam, sel juhul on Area puhul p-väärtus suurem kui 0, 05, mis on tingitud suuremast standardveast.
Poissoni regressiooni olulisus
- Poissoni regressioon R-s on kasulik diskreetse / loendusmuutuja õigeteks ennustamiseks.
- See aitab meil tuvastada neid selgitavaid muutujaid, millel on statistiliselt oluline mõju reageerimise muutujale.
- Poissoni regressioon R-s sobib kõige paremini „harvaesinevate” sündmuste jaoks, kuna need kipuvad järgima Poissoni jaotust võrreldes tavaliste sündmustega, mis järgnevad tavaliselt normaaljaotusele.
- See sobib kasutamiseks juhtudel, kui vastuse muutuja on väike täisarv.
- Sellel on lai kasutusala, kuna diskreetsete muutujate ennustamine on paljudes olukordades ülioluline. Meditsiinis saab selle abil ennustada ravimi mõju tervisele. Seda kasutatakse laialdaselt ellujäämisanalüüsis nagu bioloogiliste organismide surm, mehaaniliste süsteemide rike jne.
Järeldus
Poissoni regressioon põhineb Poissoni jaotuse kontseptsioonil. See on veel üks regressioonitehnikate komplekti kuuluv kategooria, mis ühendab nii lineaarse kui ka logistilise regressiooni omadused. Kuid erinevalt logistilisest regressioonist, mis genereerib ainult binaarset väljundit, kasutatakse seda diskreetse muutuja ennustamiseks.
Soovitatavad artiklid
See on juhend Poissoni regressiooni kohta R. Siin käsitleme sissejuhatust Poissoni regressiooni rakendamisest ja Poissoni regressiooni olulisusest. Lisateavet leiate ka meie muudest soovitatud artiklitest -
- GLM R-s
- Juhuslike arvude generaator R-s
- Regressioonivalem
- Logistiline regressioon R-s
- Lineaarne regressioon vs logistiline regressioon | Peamised erinevused