Sissejuhatus logistiline regressioon R-s

Logistiline regressioon R-s on tuntud ka kui binaarsed klassifitseerimisprobleemid. Neid kasutatakse sõltumatu muutuja tulemuse ennustamiseks kui (1 või 0 kas jah / ei). R-i logistilise regressiooni mõistmiseks on oluline teada põhilist lineaarset regressiooni, mis töötab pideva tulemusmuutujaga. Täpsemalt öeldes võime öelda, et see on lineaarse regressiooni laiendus. Selles artiklis käsitleme erinevaid mudeli arvutamise ja hindamise meetodeid. Klassifitseerimisprobleemide lahendamiseks masinõppes kasutatakse logistilist regressiooni.

Kuidas toimib R logistiline regressioon?

Logistiline regressioon on statistika valdkonnas kasutatav meetod, millega mõõdetakse sõltuva ja sõltumatu muutuja erinevust logistilise funktsiooni juhendiga, hinnates tõenäosuste erinevust. Need võivad olla kas binoomilised (millel on jah või ei ole tulemust) või mitmeharulised (õiglane vs halb väga halb). Tõenäosuse väärtused jäävad vahemikku 0–1 ja muutuja peaks olema positiivne (<1). See on suunatud sõltuvale muutujale ja sellel on järgmised sammud:

  1. f) fikseeritud katsete arv valitud andmestikul puudub
  2. kahe tulemusega uuring
  3. tõenäosuse tulemus peaks olema üksteisest sõltumatu
  4. Edu ja ebaõnnestumiste tõenäosus peab igas katses olema sama.

Selles kaalume näidet, võttes ISLR-i paketi, mis pakub koolitamiseks mitmesuguseid andmekogumeid. Mudeli sobitamiseks kasutatakse siin üldistatud lineaarse mudeli funktsiooni (glm). Logistilise regressiooni ehitamiseks eelistatakse glm-funktsiooni, mis saab nende üksikasjad analüüsiülesande kokkuvõtte abil.

Tööetapid:

Logistilise regressiooni tööetapid järgivad teatud terminielemente, näiteks

  • Tõenäosuse modelleerimine või tõenäosuse hindamise tegemine
  • ennustamine
  • Lähteväärtuse lähtestamine (kõrge või madal täpsus)
  • Segamismaatriks
  • Joonestatud ala kõvera all (AUC)

Näited

Allpool on toodud mõned näited R logistilisest regressioonist:

Andmete laadimine:

ISLR-i paketi installimine.

nõuda (ISLR)

Vajaliku paketi laadimine: ISLR

Selle artikli jaoks kavatseme RStudios kasutada andmestikku 'Nädal'. Andmekogu sisaldab nädalavarude kokkuvõtlikke üksikasju 1990 - 2010.

nõuda (ISLR)

nimed (ELT)

Väljund:

(1) Ostuartikli "Ostu" "Nädala ostmine" "StoreID" "HindCH"

(5) “PriceMM” “DiscCH” “DiscMM” “SpecialCH”

(9) “SpecialMM” “LoyalCH” “SalePriceMM” “SalePriceCH”

(13) “PriceDiff” “Store7” “PctDiscMM” “PctDiscCH”

(17) ”ListPriceDiff” “STORE”

str (ELT)

Näitab 1070 vaatlust 18 muutuja kohta.

Meie andmestikus on 1070 vaatlust ja 18 erinevat muutujat. siin on meil spetsiaalne MM ja spetsiaalsel CH-l on sõltuv tulemus. Võtame spetsiaalse MM-i atribuudi, et oleks õige vaatlus ja täpsus 84%.

laud (OJ $ SpecialMM)

0 1

897 173

Järgmine, et leida tõenäosus

897/1070

(1) 0, 8383178

Järgmise sammuna parema proovi saamiseks on andmete kogumi jagamine treeninguks ja andmestiku testimine goo

raamatukogu (caTools)

set.seed (88)

split = sample.split (OJ $ SpecialMM, SplitRatio = 0, 84)

Arvestades, et qt-l on treeningkomplekt ja qs-l on testkomplekti proovide andmed.

qt = alamhulk (ELT, split == TRUE)

qs = alamhulk (ELT, split == FALSE)

nrow (qt)

(1) 898

nrow (qs)

(1) 172

Seetõttu on meil 898 koolituskomplekti ja 172 testimisproovi.

Järgmisena saab kasutada kokkuvõtet (), kasutades regressioonanalüüsi hälbe ja kaas-efektiivsete tabelite üksikasju.

QualityLog = glm (SpecialMM ~ SalePriceMM + BuyofPurchase, data = qt, family = binomial)

kokkuvõte (QualityLog)

Väljund:

Helistama:

glm (valem = SpecialMM ~ SalePriceMM + WeekofPurchase, perekond = binomial,

andmed = qt)

Deviance'i jäägid:

Min 1Q mediaan 3Q max

-1, 2790 -0, 4182 -0, 3687 -0, 2640 2, 4284

Koefitsiendid:

Hinnanguline Std. Viga z väärtus Pr (> | z |)

(Pealtkuulamine) 2.910774 1, 616328 1, 801 0, 07173.

MüükHindMM -4.538464 0.405808 -11.184 <2e-16 ***

Ostunädal 0.015546 0.005831 2.666 0.00767 **

-

Nullhälve: 794.01 897 vabadusastmel

Jääkkalle: 636, 13 895 vabadusastmel

AIC: 642, 13

Fisheri punktide iteratsioonide arv: 5

Ülaltoodud analüüsi põhjal öeldakse, et koefitsientide tabel annab WeekofPurchase positiivsed väärtused ja neil on vähemalt kaks tähte, mis tähendab, et nad on mudeli olulised koodid.

Ennustamistehnika:

Kasutame siin R-paketis rongifunktsiooni ennustamist ja esitame tõenäosused, mida kasutame argumendina type = response. Vaatame treeningkomplektile kohaldatud ennustust (qt). R ennustab tulemust P (y = 1 | X) kujul, piiri tõenäosusega 0, 5.

ennustamaTreeni = ennustama (QualityLog, type = ”response”)

Kokkuvõtte tulemuseks on mediaan, keskmine ja min, max.

kokkuvõte (ennustadaTreen) Täitmine annab

Min 1. Qu.Median Keskmine 3. Qu.Max.

0, 02192 0, 03342 0, 07799 0, 16147 0, 25395 0, 89038

tapply (ennustamaTreening, qt $ SpecialMM)

Tõeliste tõenäosuste keskmise arvutamiseks kasutatakse funktsiooni tapply ().

tapply (ennustadaTreen, qt $ SpecialMM, keskmine)

0 1

0.1224444 0.3641334

Seetõttu leiame ülaltoodud avalduses, et tõese SpecialMM tähendab, et väärtus on0, 34 ja tõeliselt halva väärtuse korral 0, 12.

Künnisväärtuse arvutamine:

kui P on> T–, on ennustus kehv

kui P on

Klassifitseerimise maatriks:

tabel (qt $ SpecialMM, ennustadaTreening> 0, 5)

VALE ÕIGE

0 746 7

1 105 40

Tundlikkuse ja spetsiifilisuse arvutamiseks

40/145

(1) 0, 2758621

746/753

(1) 0, 9907039

Testikomplekt Ennustamine

ennustadaTest = ennustada (QualityLog, tüüp = “vastus”, newdata = qs)

tabel (qs $ SpecialMM, ennustustesti> = 0, 3)

VALE ÕIGE

0 130 14

1 10 18

tabel (qs $ SpecialMM, ennustustesti> = 0, 5)

VALE ÕIGE

0 140 4

1 18 10

Arvutamise täpsus

150/172

(1) 0, 872093

Juhtumeid on 172, millest 144 on head ja 28 halvad.

ROC kõvera joonistamine:

See on viimane samm, mõõtes ROC-kõvera jõudluse mõõtmiseks. Hea AUC väärtus peaks olema lähemal väärtusele 1, mitte 0, 5. Kontrollitakse tõenäosustega 0, 5, 0, 7, 0, 2, et ennustada, kuidas läviväärtus suureneb ja väheneb. Selleks joonistatakse läviväärtused üheaegselt ROC-kõveras. Hea valik on korjamine, arvestades suuremat tundlikkust.

Logistilise regressiooni tehnikad

Vaatame logistiliste rakenduste kasutamist R abil, kuna see muudab mudeli sobitamise väga lihtsaks. On kahte tüüpi tehnikaid:

  • Multinomaalne logistiline regressioon
  • Tavaline logistiline regressioon

Endised tööd vastuse muutujatega, kui neil on kaks klassi või rohkem. töötab hiljem, kui tellimus on märkimisväärne.

Järeldus

Seetõttu oleme õppinud regressiooni tagamise põhiloogikat koos sellega, et oleme rakendanud logistliku regressiooni R konkreetses andmekogumis. Binoomiline või binaarne regressioon mõõdab binaarsete vastuste ja ennustaja muutujate kategoorilisi väärtusi. Neil on oluline roll analüütikas, kus tööstuse eksperdid loodavad teada lineaarset ja logistilist regressiooni. Neil on oma väljakutsed ja praktilises näites oleme teinud samme andmete puhastamise ja eeltöötluse osas. Kokkuvõttes oleme näinud, kuidas logistiline regressioon lahendab kategoorilise tulemuse probleemi lihtsal ja hõlpsal viisil.

Soovitatavad artiklid

See on olnud juhend R. logistilisest regressioonist. Siin käsitleme R, logistliku regressiooni erinevate meetodite toimimist, erinevaid tehnikaid ja laiapõhjalist selgitust. Lisateabe saamiseks võite vaadata ka järgmisi artikleid -

  1. Masinõppe raamistikud
  2. R vs Python
  3. Pythoni keelte funktsioonid
  4. Kas Python on skriptikeel
  5. Binoomjaotus R-s | Süntaks
  6. Regressioon vs klassifikatsioon

Kategooria: