Lineaarse regressiooni modelleerimise ülevaade

Kui hakkate tundma õppima masinõppe algoritme, hakkate õppima ML-algoritmide mitmesuguseid viise, st juhendatud, juhendamata, pooljärelevalvelist ja tugevdusõpet. Selles artiklis käsitleme juhendatud õppimist ja ühte põhilist, kuid samas võimsat algoritmi: Lineaarne regressioon.

Järelikult on juhendatud õppimine õppimine, mille käigus koolitame masinat mõistma treeningu andmestikus pakutavate sisend- ja väljundväärtuste suhet ning kasutame seejärel sama mudelit testimisandmekogumi väljundväärtuste ennustamiseks. Põhimõtteliselt, kui meil on väljund või sildistamine juba koolituse andmestikus olemas ja oleme kindlad, et pakutav väljund on sisendile mõistlik, siis kasutame juhendatud õppimist. Juhendatud õppe algoritmid klassifitseeritakse regressiooni ja klassifikatsiooni alla.

Regressioonialgoritme kasutatakse siis, kui märkate, et väljund on pidev muutuja, samas kui klassifitseerimise algoritme kasutatakse siis, kui väljund jaguneb sellisteks osadeks nagu Pass / Fail, Hea / Keskmine / Halb jne. Regressiooni või klassifikatsiooni teostamiseks on meil erinevad algoritmid toimingud lineaarse regressiooni algoritmiga, mis on regressiooni põhialgoritm.

Selle regressiooniga hakkama saades lubage mul enne algoritmi juurde asumist seada teile baas. Koolihariduses loodan, et mäletate joonvõrrandi kontseptsiooni. Lubage mul sellest lühidalt rääkida. Teile määrati XY tasapinnal kaks punkti, st öelge (x1, y1) ja (x2, y2), kus y1 on x1 väljund ja y2 on x2 väljund, siis sirgete võrrand, mis läbib punkte, on (y- y1) = m (x-x1) kus m on joone kalle. Nüüd, pärast rea võrrandi leidmist, kui teile antakse punkt öelda (x3, y3), oleks teil hõlpsasti võimalik ennustada, kas punkt asub joonel või punkti kaugus joonest. See oli põhiline regressioon, mille ma olin koolihariduses teinud, isegi mõistmata, et sellel on masinõppes nii suur tähtsus. Mida me selles üldiselt teeme, on proovida tuvastada võrrandijoon või kõver, mis sobiks rongide andmekogumi sisendisse ja väljundisse, ning seejärel kasutada sama võrrandit katseandmete komplekti väljundväärtuse ennustamiseks. Selle tulemuseks oleks pidev soovitud väärtus.

Lineaarse regressiooni määratlus

Lineaarne regressioon on olnud tegelikult väga pikka aega (umbes 200 aastat). See on lineaarne mudel, st eeldab lineaarset suhet sisendmuutujate (x) ja ühe väljundmuutuja (y) vahel. Y arvutatakse siin sisendmuutujate lineaarse kombinatsiooni abil.

Meil on kahte tüüpi lineaarset regressiooni

Lihtne lineaarne regressioon

Kui on üks sisendmuutuja, st rea võrrand on c

kui y = mx + c, siis on tegemist lihtsa lineaarse regressiooniga.

Mitu lineaarset regressiooni

Kui sisendmuutujaid on mitu, st kui joonvõrrandiks loetakse y = ax 1 + bx 2 +… nx n, siis on tegemist mitme lineaarse regressiooniga. Andmete regressioonivõrrandi ettevalmistamiseks või koolitamiseks kasutatakse mitmesuguseid tehnikaid. Levinuimat neist nimetatakse tavalisteks väikseimateks ruutudeks. Mainitud meetodil ehitatud mudelile viidatakse kui tavalisele vähimruutude lineaarsele regressioonile või lihtsalt kõige vähem ruutude regressioonile. Mudelit kasutatakse juhul, kui sisendväärtused ja määratavad väljundväärtused on arvväärtused. Kui on ainult üks sisend ja üks väljund, moodustub võrrand sirgevõrrandist, st

y = B0x+B1

kus rea koefitsiendid tuleb kindlaks määrata statistiliste meetoditega.

Lihtsaid lineaarse regressiooni mudeleid kasutatakse ML-is väga harva, sest tulemuse määramiseks on meil mitmesuguseid sisenditegureid. Kui sisendväärtusi ja väljundväärtusi on mitu, moodustatakse võrrand tasapinna või hüpertasapinnaga.

y = ax 1 +bx 2 +…nx n

Regressioonimudeli põhiidee on saada sirgevõrrand, mis sobib andmetega kõige paremini. Kõige sobivam joon on see, kus kõigi võimalikult väikesteks peetavate andmepunktide kogu ennustusviga. Viga on tasapinna punkti ja regressioonijoone vaheline kaugus.

Näide

Alustame lihtsa lineaarse regressiooni näitega.

Inimese pikkuse ja raskuse suhe on otseselt proportsionaalne. Vabatahtlikega on tehtud uuring inimese pikkuse ja ideaalkaalu määramiseks ning väärtused on registreeritud. Seda peetakse meie treeningute andmekogumiks. Treeningandmeid kasutades arvutatakse regressioonijoone võrrand, mis annab minimaalse vea. Seda lineaarset võrrandit kasutatakse siis uute andmete ennustamiseks. St kui anname inimese pikkuse, siis peaks vastavat kaalu ennustama meie poolt välja töötatud mudel, minimaalse või nullveaga.

Y(pred) = b0 + b1*x

Väärtused b0 ja b1 tuleb valida nii, et need minimeeriksid vea. Kui mudeli hindamiseks võetakse mõõdikuna ruutvea summa, siis on eesmärk saada rida, mis vea kõige paremini vähendab.

Kihime välja vea, nii et positiivsed ja negatiivsed väärtused ei kustutaks üksteist. Ühe ennustajaga mudeli puhul:

Peatükk (b0) arvutatakse sirgevõrrandis järgmiselt:

Sisendväärtuse x koefitsient arvutatakse järgmiselt:

Koefitsiendi b 1 mõistmine:

  • Kui b 1 > 0, siis x (sisend) ja y (väljund) on otseselt proportsionaalsed. See tähendab, et x suurenemine suurendab y, näiteks suureneb kõrgus, suureneb kaal.
  • Kui b 1 <0, siis x (ennustaja) ja y (sihtmärk) on pöördvõrdelised. See tähendab, et x suurenemine väheneb y, näiteks kui sõiduki kiirus suureneb, aeg väheneb.

Koefitsiendi b 0 mõistmine:

  • B 0 võtab mudeli jääkväärtuse ja tagab, et ennustus ei oleks kallutatud. Kui meil pole B 0 terminit, siis sunnitakse sirgevõrrand (y = B 1 x) läbima lähtepunkti, st mudelisse sisestatud sisend- ja väljundväärtused annavad tulemuseks 0. Kuid see ei juhtu kunagi juhul, kui meil on 0 sisendis, siis on B 0 kõigi ennustatud väärtuste keskmine, kui x = 0. Kui kõigi ennustaja väärtuste väärtus on 0, kui x = 0, põhjustab andmete kadu ja see on sageli võimatu.

Lisaks ülalnimetatud koefitsientidele saab seda mudelit arvutada ka tavaliste võrrandite abil. Arutan oma eelseisvas artiklis edasi normaalvõrrandite kasutamist ja lihtsa / mitmerealise regressioonimudeli kujundamist.

Soovitatavad artiklid

See on lineaarse regressiooni modelleerimise juhend. Siin käsitleme lineaarse regressiooni definitsiooni, tüüpe, mis sisaldab lihtsat ja mitut lineaarset regressiooni koos mõnede näidetega. Lisateabe saamiseks võite vaadata ka järgmisi artikleid -

  1. Lineaarne regressioon R-s
  2. Lineaarne regressioon Excelis
  3. Ennustav modelleerimine
  4. Kuidas luua GLM R-is?
  5. Lineaarse regressiooni ja logistilise regressiooni võrdlus

Kategooria: