Sissejuhatus ansamblimeetoditesse masinõppes

Selles artiklis näeme masinõppe ansamblimeetodite ülevaade. Ansambliõpe on mitmekesiste masinõppevõtete kombinatsioon ennustusmudeliks ennustamise parandamiseks. Ansambliõpe on omandatud, et vähendada ennustavate andmete dispersiooni. Seda tüüpi õppimine on ette nähtud mudeli kallutatuse minimeerimiseks. Ansamblite õppimine on mitme mudeli süsteem, milles erinevad klassifikaatorid või tehnikad on strateegiliselt ühendatud, et klassifitseerida või ennustada keerukama probleemi statistikat parema täpsusega. Sellise õppimise eesmärk on minimeerida mudeli halva valiku tõenäosus. See määrab usalduse mudeli tehtud otsuse vastu. Optimaalsete omaduste valimise idee on ansambliõppes realiseerunud.

Ansamblimeetodite tüübid masinõppes

Ansamblimeetodid aitavad luua mitmeid mudeleid ja seejärel neid paremate tulemuste saamiseks kombineerida, mõned ansamblimeetodid liigitatakse järgmistesse rühmadesse:

1. Järjestikused meetodid

Sellise Ensemble'i meetodi puhul on olemas järjestikused genereeritud baasõppijad, kellest sõltub andmesõltuvus. Kõik muud baasõppija andmed sõltuvad varasematest andmetest. Niisiis on varasemad valesti märgistatud andmed häälestatud selle kaalu põhjal, et kogu süsteemi jõudlust parendada.

Näide : elavdamine

2. Paralleelne meetod

Sellise Ensemble'i meetodi korral genereeritakse baasõppija paralleelses järjekorras, milles andmete sõltuvus puudub. Kõik baasõppija andmed genereeritakse iseseisvalt.

Näide : virnastamine

3. Homogeenne ansambel

Selline ansamblimeetod on sama tüüpi klassifikaatorite kombinatsioon. Kuid andmekogum on iga klassifikaatori puhul erinev. See paneb kombineeritud mudeli pärast iga mudeli tulemuste liitmist täpsemalt tööle. Seda tüüpi ansamblimeetod töötab suure hulga andmekogumitega. Homogeense meetodi korral on funktsioonide valiku meetod erinevate treenimisandmete jaoks sama. See on arvutuslikult kallis.

Näide: Populaarsed meetodid, näiteks kottide pakkimine ja suurendamine, kuuluvad homogeensesse koosseisu.

4. Heterogeenne ansambel

Selline ansamblimeetod on erinevat tüüpi klassifikaatorite või masinõppe mudelite kombinatsioon, milles iga klassifikaator on üles ehitatud samadele andmetele. Selline meetod töötab väikeste andmekogumite korral. Heterogeenses osas on funktsioonide valiku meetod samade treeningandmete jaoks erinev. Selle ansamblimeetodi üldine tulemus viiakse läbi, kombineerides iga kombineeritud mudeli kõik tulemused.

Näide : virnastamine

Ansamblimeetodite tehniline klassifikatsioon

Allpool on toodud ansamblimeetodite tehniline klassifikatsioon:

1. Pakkimine

See ansamblimeetod ühendab kaks masinõppe mudelit, st alglaadimise ja koondamise üheks ansamblimudeliks. Pakkimismeetodi eesmärk on vähendada mudeli suurt varieeruvust. Otsustuspuud on dispersiooniga ja madala kallutatusega. Suur andmestik on (näiteks 1000 proovi) alamvalim (näiteks 10 alamproovi sisaldab 100 andmevalikut). Mitu otsustuspuud on üles ehitatud iga alavalimi koolitusandmetele. Erinevate otsustuspuude alamvalimisse kuuluvate andmete põrutamisel vähendatakse muret, et igale otsustuspuule kohandatakse koolitusandmeid. Mudeli efektiivsuse huvides kasvatatakse iga üksikut otsustuspuud sügavalt, sisaldades alavalimi koolitusandmeid. Lõpliku ennustuse mõistmiseks liidetakse iga otsustuspuu tulemused. Koondandmete dispersioon väheneb. Mudeli ennustamise täpsus pakkimismeetodis sõltub kasutatud otsustuspuu arvust. Valimi andmete erinevad alamvalim valitakse juhuslikult koos asendamisega. Iga puu väljundil on kõrge korrelatsioon.

2. Elavdamine

Kiirendav ansambel ühendab ka erinevad sama tüüpi klassifikaatorid. Boosting on üks järjestikustest ansamblimeetoditest, milles iga mudel või klassifikaator põhineb funktsioonidel, mida järgmine mudel kasutab. Sel moel saab tugevdamismeetod nõrkade õppijate mudelitest tugevama õppija mudeli, nende keskmiste kaalu arvutamisel. Teisisõnu, tugevama väljaõppega mudel sõltub mitmest nõrga väljaõppega mudelist. Nõrk õppija või kulumisega koolitatud mudel on selline, mis on tegeliku klassifikatsiooniga väga vähem seotud. Kuid järgmine nõrk õppija on tõese klassifikatsiooniga pisut rohkem seotud. Selliste erinevate nõrkade õppijate kombinatsioon annab tugeva õppija, mis on korrelatsioonis tõelise klassifikatsiooniga.

3. Virnastamine

See meetod ühendab ka mitu klassifikatsiooni või regressioonitehnikat, kasutades meta-klassifikaatorit või metamudelit. Madalama taseme mudeleid koolitatakse täieliku koolitusandmetega ja seejärel treenitakse kombineeritud mudel madalama astme mudelite tulemustega. Erinevalt turgutamisest läbitakse iga madalama astme mudel paralleelselt. Madalama taseme mudelitest saadud ennustust kasutatakse järgmise mudeli sisendina treeningute andmekogumina ja need moodustavad virna, milles mudeli ülemine kiht on paremini koolitatud kui mudeli alumine kiht. Ülemise kihi mudelil on hea ennustamistäpsus ja need on ehitatud madalama taseme mudelite põhjal. Virna suurendamine jätkub, kuni parim ennustus viiakse läbi minimaalse veaga. Kombineeritud mudeli või metamudeli ennustamine põhineb erinevate nõrkade või madalama kihi mudelite ennustamisel. Selle eesmärk on toota vähem erapoolikuse mudelit.

4. Juhuslik mets

Juhuslik mets erineb kottidesse paigutamisest pisut, kuna see kasutab sügavaid puid, mis on paigaldatud saapapaela proovidele. Variatsiooni vähendamiseks kombineeritakse iga pinge väljund. Iga puu kasvatamise asemel selle asemel, et genereerida algklassi valimit vaatluse põhjal andmestikus, proovime andmestikku ka tunnuste põhjal ja kasutame puu moodustamiseks sellise valimi juhuslikku alamhulka. Teisisõnu, andmekogumi valimine toimub tunnuste põhjal, mis vähendavad erinevate väljundite korrelatsiooni. Juhuslik mets on hea puuduvate andmete otsustamiseks. Juhuslik mets tähendab valimi alamhulga juhuslikku valimist, mis vähendab tõenäosust saada seotud prognoosiväärtusi. Igal puul on erinev struktuur. Juhusliku metsa tulemuseks on metsa nihke suurenemine, kuid erinevate puude vähem seotud seoste ennustamise keskmistamise tulemusel varieerumine väheneb ja annab tulemuseks üldiselt parema tulemuse.

Järeldus

Ansambli mitme mudeli lähenemisviis realiseerub sügavate õppimismudelite abil, milles keerukamaid andmeid on klassifikaatori selliste erinevate kombinatsioonide kaudu uuritud ja töödeldud, et saada paremat ennustamist või klassifitseerimist. Iga mudeli ennustamine ansamblite õppimisel peab olema rohkem mitteseotud. See hoiab mudeli kallutatuse ja variatsiooni võimalikult madalal. Mudel on tõhusam ja prognoosib väljundit minimaalse vea korral. Ansambel on juhendatud õppealgoritm, kuna mudelit on ennustamise tegemiseks eelnevalt koolitatud koos andmekogumiga. Ansamblite õppimisel peaks suure täpsuse saavutamiseks komponentide klassifikaatorite arv olema sama kui klassimärkide arv.

Soovitatavad artiklid

See on juhend Ensemble Methods in Machine Learning. Siin käsitleme olulisi ansamblimeetodite tüüpe masinõppes koos tehnilise klassifikatsiooniga. Lisateavet leiate ka meie muudest soovitatud artiklitest -

  1. Sissejuhatus ansamblitehnikatesse
  2. Masinõppe elutsükkel koos eelistega
  3. Masinõppe algoritmid
  4. 24 parimat masinõppega seotud intervjuuküsimust

Kategooria: