Regressioon vs klassifikatsioon - Peamised peamised erinevused ja võrdlus

Erinevus regressiooni ja klassifitseerimise vahel

Selles artiklis käsitleme regressiooni vs klassifikatsiooni, arutagem peamisi erinevusi regressiooni ja klassifitseerimise vahel. Masinõpe jaguneb laias laastus kahte tüüpi: juhendatud masinõpe ja juhendamata masinõpe. Juhendatud masinõppes on meil andmestikus teada väljundväärtus ja koolitame neil põhinevat mudelit ning kasutame seda ennustamiseks, samas kui juhendamata masinõppes pole meil teadaolevaid väljundväärtuste komplekte. Klassifikatsiooni ja regressiooni eristamiseks mõelgem enne, mida see terminoloogia tähendab masinõppes. Regressioon on juhendatud masinõppe algoritm, mida saab koolitada reaalarvu väljundite ennustamiseks. Klassifikatsioon on juhendatud masinõppe algoritm, mida koolitatakse kategooriate tuvastamiseks ja ennustamiseks, millisesse kategooriasse nad uusi väärtusi kuuluvad.

Regressiooni ja klassifikatsiooni (infograafika) võrdlus ühest otsast teise

Allpool on 5 paremat regressiooni ja klassifikatsiooni võrdlust :

Peamised erinevused regressiooni ja klassifitseerimise vahel

Arutleme järgmiste punktide põhilisi erinevusi regressiooni vs klassifitseerimise vahel:

Klassifitseerimine seisneb sildi või kategooria ennustamises. Klassifitseerimise algoritm liigitab vajaliku andmekogumi ühte kahest või enamast sildist, kahe klassi või kategooriaga tegelev algoritm on tuntud kui binaarne klassifikaator ja kui klasse on rohkem kui kaks, võib seda nimetada mitme klassi klassifitseerimise algoritmiks.
Regressioon seisneb optimaalse funktsiooni leidmises pidevate tegelike väärtuste andmete tuvastamiseks ja selle koguse ennustamiseks. Algoritmi treenimiseks sisendina kasutatavate mitmete muutujatega regressiooni või funktsioone nimetatakse mitme muutujaga regressiooniprobleemiks. Kui regressiooniprobleemis on sisendväärtused sõltuvad või järjestatud aja järgi, siis nimetatakse seda aegridade prognoosimise probleemiks.
Kuid klassifitseerimismudel ennustab ka pidevat väärtust, mis on sellesse väljundklassi kuuluva sündmuse toimumise tõenäosus. Siin tähistab sündmuse tõenäosus konkreetsesse klassi kuuluva näite tõenäosust. Prognoositud tõenäosusväärtuse saab klassiväärtuseks teisendada, valides kõige suurema tõenäosusega klassimärgi.
Mõistagem seda paremini näitega nähes. Eeldame, et koolitame mudelit, et ennustada, kas inimesel on vähk või mitte mõne tunnuse põhjal. Kui saame vähkkasvaja tõenäosuseks 0, 8 ja vähktõbe mitte 0, 2, võime teisendada 0, 8 tõenäosuse vähi klassimärgiseks, kuna sellel on kõige suurem tõenäosus.
Nagu eespool klassifitseerimisel mainitud, arvutame täpsuse, et näha, kui hea on klassifitseerimismudel. Vaadakem, kuidas arvutamist teostatakse, klassifitseerimise täpsust saab teha, kui arvestada õigete ennustuste ja ennustuste koguarvu suhe korrutatuna 100-ga. Kui tehtud on 50 ennustust ja 10 neist on õiged ja 40 valed, siis on täpsus 20 %.

Täpsus = (õigete ennustuste arv / ennustuste koguarv) * (100)

Täpsus = (10/50) * (100)
Täpsus = 20%

Nagu eespool regressioonis mainitud, tuleb ruutkeskmise vea (RMSE) arvutamiseks näha, kui hästi regressioonimudel kõige populaarsemat viisi täidab. Vaatame, kuidas arvutus läbi viiakse.

Regressioonimudeli prognoositav väärtus on 4, 9, tegelik väärtus on aga 5, 3.

Regressioonimudeli eeldatav väärtus on 2, 3, tegelik väärtus on 2, 1.

Regressioonimudeli prognoositav väärtus on 3, 4, tegelik väärtus on 2, 9.

Nüüd tähendab Juur ruutvea arvutamist valemi abil.

Vea ruut on (5, 3–4, 9) 2 = 0, 16, (2, 1–2, 3) 2 = 0, 04, (2, 9–3, 4) 2 = 0, 25

Vea ruutkeskmine = 0, 45 / 3 = 0, 15

Ruutkeskmine viga = ruutjuur 0, 15 = 0, 38

See on RMSE = 0, 38. Mudeli efektiivsuse arvutamiseks on palju muid meetodeid, kuid enim kasutatakse RMSE, kuna RMSE pakub vea skoori samades ühikutes kui ennustatud väärtus.

Näited:

Enamikul andmeteadlastest inseneridel on karjääri algfaasis keeruline valida regressiooni ja klassifitseerimise vahel. Lihtsamaks muutmiseks vaatame, kuidas klassifitseerimise probleemid välja näevad ja kuidas regressiooniprobleemid välja näevad,

Klassifikatsioon

Ennustatakse, kas homme sajab vihma või mitte.
Inimese ennustamine peaks seda head ostma või mitte kasumit teenima.
Selle ennustamine, kas inimesel on haigus või mitte.

Kui märkate iga olukorra siin, võib väljundi prognoositud väärtuseks olla kas jah või ei.

Regressioon

Maa hinna ennustamine.
Varude hinna ennustamine.

Kui märkate iga olukorra siin, on enamikul neist prognoositud väljundina arvväärtus.

Regressiooni ja klassifitseerimise võrdlustabel

Allolev tabel võtab kokku regressiooni ja klassifikatsiooni võrdlused :

Parameeter	Regressioon	Klassifikatsioon
Kaardistusfunktsiooni tüüp	Nendes algoritmides valitakse kaardistamisfunktsioon tüübiks, mis võimaldab väärtused viia kooskõlla pideva väljundiga.	Nendes algoritmides valitakse kaardistamisfunktsioon tüübist, mis võimaldab väärtused viia vastavusse eelnevalt määratletud klassidega.
Kaasab ennustamist	Seda tüüpi algoritmide puhul kuuluvad ennustatud andmed pidevate väärtuste kategooriasse. (Nagu 23, 34, 45, 67, 28)	Seda tüüpi algoritmi ennustatud andmete puhul kuulub see diskreetsete väärtuste kategooriasse. (Nagu kas jah või ei, kuulub A-, B- või C-kategooriasse).
Arvestusmeetod	Ruutkeskmine tõrge arvutatakse selleks, et selgitada välja andmekogumi parim sobivus.	Täpsus arvutatakse selleks, et selgitada välja andmekogumi parim sobivus.
Prognoositavate andmete olemus	Prognoositavate andmete olemus on järjestatud. (See tähendab, et ennustatud väärtused on mingis järjestuses).	Prognoositavate andmete olemus on korras. (See tähendab, et ennustatud väärtused ei asu üheski järjestuses).
Algoritmid	Toetab vektorregressiooni ja regressioonipuud on tuntud ka kui Random Forest, mis on mõned populaarsed näited regressioonialgoritmidest.	Naiivsed Bayes, otsustuspuud ja K Lähimad naabrid on klassifitseerimise algoritmide populaarsed näited.

Järeldus

Need on mõned peamised erinevused klassifitseerimise ja regressiooni vahel. Mõnel juhul võib regressioonis ennustatud pidevad väljundväärtused jagada märgisteks ja muuta klassifikatsioonimudeliteks. Niisiis, me peame selgelt aru saama, kumba valida lähtuvalt olukorrast ja mida me tahame, et prognoositav väljund oleks.

Soovitatavad artiklid

See on juhend peamise erinevuse kohta regressioon vs klassifikatsioon. Siin käsitleme ka regressiooni vs klassifikatsiooni põhierinevusi infograafikaga ja võrdlustabelit. Võite lisateabe saamiseks vaadata ka järgmisi artikleid -