Mis on regressioonanalüüs? - Regressioonianalüüsi tüübid ja eelised

Lang L: none (table-of-contents):

Anonim

Sissejuhatus regressioonianalüüsi

Regressioonanalüüs on ennustav modelleerimisalgoritm muutuja tulemuse ennustamiseks ja muutujate (sõltumatute muutujate) tuvastamiseks, mis aitavad kaasa muutuvale tulemusele (sihtmärk või sõltuv muutuja) või sõltuvad sellest. Lihtsamalt öeldes on see meetod tulemuse saamiseks sõltumatute ja sõltuvate muutujate vahelise seose leidmiseks. Tulemuse kasutamine ja tõlgendamine on lihtne. Regressioonitehnikaid on palju liike, mida kasutatakse laialdaselt erinevates sektorites. Mõned regressiooni näited on töötaja palga või ettevõtte tulude prognoosimine aasta jooksul.

Kuidas regressioonanalüüs toimis?

Regressioonitehnikaid on palju liike, mida kasutatakse erinevate tegurite ja tulemuste arvessevõtmiseks.

  • Lineaarne regressioon
  • Logistiline regressioon
  • Lasso / Ridge'i regressioon
  • Polünoomne regressioon

Allpool on toodud mõned olulised statistilised regressioontestid, mida kasutatakse erinevates sektorites:

1. Lineaarne regressioon

Seda kasutatakse juhul, kui tulemusmuutuja sõltub lineaarselt sõltumatutest muutujatest. Tavaliselt kasutatakse seda siis, kui meil pole tohutut andmekogumit. See on tundlik ka kõrvalekallete suhtes, nii et kui andmekogum sisaldab kõrvalekaldeid, siis on parem neid enne lineaarse regressiooni rakendamist käsitleda. On olemas ühe- ja mitme muutujaga regressioonitehnikad. Lihtne lineaarne regressioon on analüüs, kui tulemusmuutuja sõltub lineaarselt ühest sõltumatust muutujast. Lihtne lineaarne regressioon järgib sirgjoone võrrandit, mis on esitatud allpool:

Y=mx+c

Kus,

Y = sihtmärk, sõltuv või kriteeriumi muutuja

x = sõltumatu või ennustaja muutuja

m = kalle või regressioonikordaja

c = konstant

Mitme muutujaga lineaarne regressioon määratleb tulemuse muutuja ja enam kui ühe sõltumatu muutuja vahelise seose. See järgneb sirgjoone allpool toodud võrrandile, kus sõltuvad muutujad on kõigi sõltumatute muutujate lineaarne kombinatsioon:

Y= m1x1+m2x2+m3x3+…mnan+c

Kus,

Y = sihtmärk, sõltuv või kriteeriumi muutuja

x1, x2, x3… xn = sõltumatud või ennustatavad muutujad

m1, m2, m3… mn = vastavate muutujate kalde- või regressioonikoefitsiendid

c = konstant

Lineaarne regressioon järgib vähima ruudu meetodi põhimõtet. Selle meetodi kohaselt valitakse kõige sobivam joon ruutvea summa minimeerimise teel. Kõige paremini sobib joon, kus vaadeldava teabe ja joone ruutvea summa on minimaalne.

Enne lineaarse regressiooni rakendamist andmekogumis tuleks hoolitseda mõne eelduse eest.

  • Sõltumatute ja sõltuvate muutujate vahel peaks olema lineaarne seos.
  • Sõltumatute muutujate vahel ei tohiks olla palju või mitmepoolset lineaarsust. Multikollineaarsust määratletakse kui nähtust, kus sõltumatute muutujate vahel on kõrge korrelatsioon. Multikollineaarsust saab käsitleda ühe korrelatiivse muutuja kukutamisega või siis käsitatakse kahte muutujat ühe muutujana.
  • Homoscedasticity: seda määratletakse olekuna, kus regressioonanalüüsis peaksid veatingimused olema juhuslikult jaotatud üle rea. Kui joonisel on mõni tuvastatud muster, ei tohiks joont ületada, kui andmed väidetakse olevat heterostsedastsed.
  • Kõik muutujad peaksid olema tavaliselt jaotatud, mida näeme QQ graafiku joonistades. Kui andmeid tavaliselt ei levitata, võime selle töötlemiseks kasutada mittelineaarseid teisendusmeetodeid.

Niisiis, hea täpsuse ja õige tulemuse saamiseks on alati soovitatav eeldusi testida, kasutades lineaarset regressiooni.

2. Logistiline regressioon

Seda regressioonitehnikat kasutatakse juhul, kui siht- või tulemusmuutuja on oma olemuselt kategooriline või binaarne. Peamine erinevus lineaarse ja logistilise regressiooni vahel seisneb sihtmuutujal, lineaarses regressioonis peaks see olema pidev, logistiliselt aga kategooriline. Tulemusmuutujal peaks olema ainult kaks klassi, mitte rohkem kui see. Mõned näited on rämpsposti filtrid e-kirjades (rämpspost või mitte), pettuste tuvastamine (pettus / pole pettus) jne. See toimib tõenäosuse põhimõttel. Künnisväärtuse seadmise teel saab selle jagada kahte kategooriasse.

Näide: kui on kaks kategooriat A, B ja kui me seame läviväärtuseks 0, 5, siis loetakse tõenäosust üle 0, 5 ühte kategooriaks ja alla 0, 5 teist kategooriat. Logistiline regressioon järgib S-kujulist kõverat. Enne logistilise regressioonimudeli loomist peame jagama andmekogumi koolituseks ja testimiseks. Kuna sihtmuutuja on kategooriline või binaarne, peame kontrollima, et treeningkomplektis oleks õige klasside tasakaal. Klassi tasakaalustamatuse ilmnemisel saab seda lahendada järgmiste meetodite abil:

  • Ülemproovide võtmine: Selle tehnika puhul võetakse proovist klass, kus on vähem ridu, et see vastaks enamusklassi ridade arvule.
  • Proovide võtmine allapoole: selle tehnika puhul võetakse proovist, kus on rohkem ridu, proovid alla, et need vastaksid vähemuse klassi ridade arvule.

Enne logistilise regressioonimudeli rakendamist andmekogumites on oluline mõista mõnda olulist punkti:

  • Sihtmuutuja peaks oma olemuselt olema binaarne. Kui sihtmuutujal on rohkem kui 2 klassi, siis nimetatakse seda Multinomial Logistic Regression .
  • Sõltumatute muutujate vahel ei tohiks multikollineaarsust olla või see peaks olema vähe.
  • Tööks on vaja tohutut valimi suurust.
  • Sõltumatute muutujate ja koefitsientide logi vahel peaks olema lineaarne seos.

Regressiooni eelised

Regressioonanalüüsil on palju eeliseid. Selle asemel, et kaaluda oma soolestiku tunnet ja ennustada tulemust, võime kasutada regressioonanalüüsi ja näidata võimalike tulemuste jaoks paikapidavaid punkte.

Mõned neist on loetletud allpool:

  • Prognoosida mis tahes sektori müüki ja tulusid lühemaks või pikemaks perioodiks.
  • Et ennustada mis tahes tööstusharu kliendi osakaalu ja leida sobivad meetmed nende vähendamiseks.
  • Lao varude taseme mõistmiseks ja prognoosimiseks.
  • Uurimaks, kas uue toote turuletoomine õnnestub või mitte.
  • Et ennustada, kas mõni klient jätab laenu või mitte.
  • Et ennustada, kas mõni klient ostab toote või mitte.
  • Pettuste või rämpsposti tuvastamine

Järeldus

Pärast mudeli rakendamist võetakse arvesse erinevaid hindamismõõdikuid. Kuigi enne mudeli rakendamist on vaja testida eeldusi, saame muutujaid alati modifitseerida erinevate matemaatiliste meetodite abil ja mudeli jõudlust suurendada.

Soovitatavad artiklid

See on regressioonanalüüsi juhend. Siin käsitleme regressioonanalüüsi sissejuhatust, kuidas regressioonianalüüs toimis ja regressiooni eeliseid. Lisateavet leiate ka meie muudest soovitatud artiklitest -

  1. Lineaarse regressiooni analüüs
  2. Andmeanalüüsi tööriistad
  3. Regressioonitesti tööriistad
  4. Big Data Analytics
  5. Regressioon vs klassifikatsioon | Peamised peamised erinevused