Lineaarne regressioon R - Kuidas tõlgendada näidetega lineaarset regressiooni

Lang L: none (table-of-contents):

Anonim

Mis on lineaarne regressioon R-s?

Lineaarne regressioon on statistika ja masinõppe valdkonnas kõige populaarsem ja laialdasemalt kasutatav algoritm. Lineaarne regressioon on modelleerimistehnika sisendi ja väljundi muutujate vahelise seose mõistmiseks. Siin peavad muutujad olema numbrilised. Lineaarne regressioon tuleneb sellest, et väljundmuutuja on sisendmuutujate lineaarne kombinatsioon. Väljund on tavaliselt tähistatud "y", samas kui sisend on tähistatud "x".

Lineaarset regressiooni R-s võib liigitada kahte tüüpi

  1. Si mple Lineaarne regressioon

See on regressioon, kus väljundmuutuja on ühe sisendmuutuja funktsioon. Lihtsa lineaarse regressiooni esitus:

y = c0 + c1 * x1

  1. Mitu lineaarset regressiooni

See on regressioon, kus väljundmuutuja on mitme sisendi muutuja funktsioon.

y = c0 + c1 * x1 + c2 * x2

Mõlemal ülaltoodud juhul on c0, c1, c2 koefitsiendid, mis tähistavad regressioonikaalusid.

Lineaarne regressioon R-s

R on väga võimas statistikatööriist. Vaatame, kuidas saab R-s läbi viia lineaarset regressiooni ja kuidas saab selle väljundväärtusi tõlgendada.

Valmistame andmekogu, et lineaarset regressiooni põhjalikult läbi viia ja mõista.

Nüüd on meil andmekogum, kus sõltumatuteks muutujateks on rahulolu_skoor ja aastaarv_Exp. Väljundmuutuja on palk_in_lakhs.

Ülaltoodud andmestikule viidates on probleem, mida me siinkohal lineaarse regressiooni abil käsitleda peame:

Töötaja palga prognoos, mis põhineb tema kogemusteaastal ja rahulolu skooril tema ettevõttes.

Lineaarse regressiooni R-kood:

model <- lm(salary_in_Lakhs ~ satisfaction_score + year_of_Exp, data = employee.data)
summary(model)

Ülaltoodud kood väljastatakse järgmiselt:

Regressiooni valemiks saab

Y = 12, 29–1, 19 * rahulolu_tulemus + 2, 08 × 2 * aasta_näitaja

Juhul, kui ühel on mudelis mitu sisendit.

Siis võib R-kood olla:

mudel <- lm (palga_in_lakid ~., andmed = töötaja.andmed)

Kui keegi soovib valida muutuja mitme sisendmuutuja seast, on selleks olemas ka mitu tehnikat, näiteks „Tagasi elimineerimine”, „Edasine valik” jne.

Lineaarse regressiooni tõlgendamine R-s

Allpool on toodud mõned lineaarse regressiooni tõlgendused r-s, mis on järgmised:

1.Residendid

See viitab erinevusele tegeliku reageeringu ja mudeli prognoositud reageerimise vahel. Nii et iga punkti jaoks on üks tegelik vastus ja üks ennustatud vastus. Järelikult on jääke sama palju kui vaatlusi. Meie puhul on meil neli vaatlust, seega neli jääki.

2.Koefitsiendid

Edasi minnes leiame koefitsientide sektsiooni, mis kujutab pealtkuulamist ja kalle. Kui soovitakse töötaja töötasu tema kogemuste ja rahulolu skoori põhjal ennustada, tuleb välja töötada kallakul ja pealtkuulamisel põhinev mudeli valem. See valem aitab teil palka ennustada. Kuulamine ja kalle aitavad analüütikutel leida parima mudeli, mis sobib andmepunktidele sobivalt.

Kalle: kujutab joone järsku.
Peatükk: koht, kus joon lõikab telge.
Saame aru, kuidas valemi moodustamine toimub kallaku ja ristlõike põhjal.
Ütle, et pealtkuulamine on 3 ja kalle 5.
Seega, valem on y = 3 + 5x . See tähendab, et kui x suureneb ühiku võrra, suureneb y 5 võrra.

a.koefitsient - hinnang

Selles tähistab pealtkuulamine väljundmuutuja keskmist väärtust, kui kogu sisend muutub nulliks. Niisiis on meie puhul palk lakides keskmiselt 12, 29 lakki, arvestades rahulolu skoori ja kogemusi tuleb null. Siin näitab kalle väljundmuutuja muutust sisendmuutuja ühikumuutusega.

b.koefitsient - standardviga

Standardviga on vea hinnang, mille saame meie vastuse muutuja tegeliku ja ennustatud väärtuse erinevuse arvutamisel. See omakorda räägib sisend- ja väljundmuutujate omavahelise usaldusväärsuse kohta.

c.koefitsient - t väärtus

See väärtus annab kindluse nullhüpoteesi tagasilükkamiseks. Mida suurem väärtus on nullist eemal, seda suurem on usaldus nullhüpoteesi tagasilükkamiseks ning väljundi ja sisendmuutuja vahelise seose kindlakstegemiseks. Ka meie puhul on väärtus nullist eemal.

d.koefitsient - Pr (> t)

See lühend tähistab põhimõtteliselt p-väärtust. Mida lähemal see nullile on, seda lihtsamalt võime nullhüpoteesi tagasi lükata. Joon, mida meie puhul näeme, on see väärtus nullilähedane, võime öelda, et palgapaketi, rahulolu skoori ja kogemuste aasta vahel on seos.

Järelejäänud standardviga

See kujutab vastuse muutuja ennustamisel tekkinud viga. Mida madalam see on, seda suurem on mudeli täpsus.

Mitu R-ruutu, korrigeeritud R-ruut

R-ruut on väga oluline statistiline meede, et mõista, kui lähedased andmed on mudelisse sobinud. Seega, kui hästi meie lineaarse regressiooniga mudel esindab andmekogumit.

R-ruudu väärtus jääb alati vahemikku 0 kuni 1. Valem on:

Mida lähemal väärtus 1-le, seda paremini kirjeldab mudel andmekogumeid ja nende dispersiooni.

Kui aga pilti tuleb rohkem kui üks sisendmuutuja, eelistatakse korrigeeritud R-ruudu väärtust.

F-statistika

See on tugev meede sisendi ja vastuse muutuja vahelise suhte määramiseks. Mida suurem on väärtus kui 1, seda suurem on usaldus sisend- ja väljundmuutuja suhetes.

Meie puhul on see “937.5”, mis on andmete suurust arvestades suhteliselt suurem. Seetõttu muutub nullhüpoteesi tagasilükkamine lihtsamaks.

Kui keegi soovib näha mudeli koefitsientide usaldusvahemikku, saate seda teha järgmiselt:

Regressiooni visualiseerimine

R kood:

proovitükk (palga_in_lakid ~ rahulolu_tulemused + aasta_täiendus, andmed = töötaja.andmed)
abline (mudel)

Enne mudelisse sobitamist on alati parem koguda üha rohkem punkte.

Järeldus - lineaarne regressioon R-s

Lineaarne regressioon on lihtne, hõlpsasti paigaldatav, kergesti mõistetav, kuid samas väga võimas mudel. Nägime, kuidas saab R-ga lineaarset regressiooni läbi viia. Proovisime tõlgendada ka tulemusi, mis võib teid aidata mudeli optimeerimisel. Kui lihtsa lineaarse regressiooniga on rahuldatud, tuleks proovida mitut lineaarset regressiooni. Kuna lineaarne regressioon on kõrvalekallete suhtes tundlik, tuleb seda enne uurida, kas lineaarsele regressioonile sobib.

Soovitatavad artiklid

See on juhend R-lineaarse regressiooni kohta. Siin on arutatud, mis on R lineaarne regressioon? kategoriseerimine, R. visualiseerimine ja tõlgendamine. Lisateabe saamiseks võite tutvuda ka meie teiste soovitatud artiklitega -

  1. Ennustav modelleerimine
  2. Logistiline regressioon R-s
  3. Otsusepuu R-s
  4. R intervjuu küsimused
  5. Regressiooni ja klassifitseerimise peamised erinevused
  6. Juhend otsustuspuu kohta masinõppes
  7. Lineaarne regressioon vs logistiline regressioon | Peamised erinevused