Sissejuhatus otsustuspuusse masinõppes

Otsusepuu masinõppes on kaasaegses maailmas laiaulatuslik. ML-is on palju algoritme, mida kasutatakse meie igapäevases elus. Üks olulisi algoritme on otsustuspuu, mida kasutatakse klassifitseerimisel ja ka lahendus regressiooniprobleemidele. Kuna tegemist on ennustava mudeliga, tehakse otsustuspuu analüüs algoritmilise lähenemise kaudu, kus andmekogum jaotatakse tingimuste järgi alamhulkadeks. Nimi ise ütleb, et see on puusarnane mudel juhul-kui-siis-muu avalduste kujul. Mida sügavam on puu ja mida rohkem on sõlmi, seda parem on mudel.

Otsustuspuu tüübid masinõppes

Otsuspuu on puu moodi graafik, kus sortimine algab juursõlmest lehe sõlme kuni eesmärgi saavutamiseni. See on kõige populaarsem otsustatud algoritmide põhjal otsustamiseks ja klassifitseerimiseks. See on konstrueeritud rekursiivse jaotusega, kus iga sõlm toimib mõne atribuudi proovijuhina ja iga sõlmest tulenev serv on testjuhtumi võimalik vastus. Nii juur- kui ka lehesõlmed on algoritmi kaks üksust.

Saame väikese näite abil aru järgmiselt:

Siin näitab juursõlm, kas olete vähem kui 40 või mitte. Kui jah, siis kas sööte kiirtoitu? Kui jah, siis olete kõlbmatu või muidu olete sobiv. Ja kui olete üle 40, siis kas teete trenni? Kui jah, siis olete sobivad või muidu olete kõlbmatud. See oli põhimõtteliselt binaarne klassifikatsioon.

Otsustuspuid on kahte tüüpi:

  1. Klassifikatsioonipuud: ülaltoodud näide on kategooriapõhine klassifikatsioonipuu.
  2. Regressioonipuud : seda tüüpi algoritmi puhul on otsus või tulemus pidev. Sellel on üks arvväljund, milles on rohkem sisendeid või ennustajaid.

Otsustuspuus on tüüpiline väljakutse atribuudi tuvastamine igas sõlmes. Protsessi nimetatakse atribuudi valimiseks ja sellel on atribuudi tuvastamiseks mõned abinõud.

a. Teabe kogumine (IG)

Informatsiooni suurenemine mõõdab, kui palju teavet üks funktsioon klassi kohta annab. See toimib peamise võtmena otsustuspuu konstrueerimisel. Atribuut, millel on suurim infovõim, jaguneb kõigepealt. Niisiis, otsustuspuu maksimeerib teabe saamist alati. Kui me kasutame sõlme eksemplaride väiksemateks alamhulkadeks jagamiseks, siis entroopia muutub.

Entroopia: see on juhusliku muutuja määramatuse või ebapuhtuse mõõt. Entroopia otsustab, kuidas otsustuspuu jagab andmed alamhulkadeks.

Informatsiooni suurenemise ja entroopia võrrand on järgmine:

Informatsiooni suurenemine = entroopia (vanem) - (kaalutud keskmine * entroopia (lapsed))

Entroopia: ∑p (X) log p (X)

P (X) on siin antud klassi näidete murdosa.

b. Gini indeks

Gini indeks on mõõdik, mis otsustab, kui sageli juhuslikult valitud element valesti tuvastatakse. Selles on selgelt öeldud, et madalama Gini indeksiga atribuuti eelistatakse esmajärjekorras.

Gini indeks: 1-∑ p (X) 2

Poolitatud loomine

  1. Jaotise loomiseks peame kõigepealt arvutama Gini skoori.
  2. Andmed jaotatakse ridade loendi abil, millel on atribuudi indeks ja selle atribuudi jagatud väärtus. Pärast parempoolse ja vasakpoolse andmekogumi leidmist saame jagatud väärtuse Gini skoori järgi esimesest osast. Nüüd saab jagatud väärtus atribuudi asukoha otsustamiseks.
  3. Järgmises osas hinnatakse kõiki lõhesid. Parima võimaliku väärtuse arvutamiseks hinnatakse jagunemise maksumust. Parimat jaotust kasutatakse otsustuspuu sõlmena.

Puu ehitamine - otsustuspuu masinõppes

Otsuspuu ehitamiseks on kaks sammu.

1. Terminalisõlme loomine

Terminalisõlme loomisel on kõige olulisem tähele panna, kas peame puude kasvu lõpetama või edasi liikuma. Selleks saab kasutada järgmisi viise:

  • Maksimaalne puu sügavus: kui puu jõuab maksimaalse sõlmede arvuni, peatub täitmine.
  • Minimaalsed sõlmekirjed: seda saab määratleda kui minimaalset mustrit, mida sõlm nõuab. Siis võime lõpetada terminalide sõlmede lisamise kohe, kui saame need minimaalsed sõlmerekordid.

2. Rekursiivne tükeldamine

Kui sõlm on loodud, saame lapsesõlme luua rekursiivselt, jagades andmekogumi ja helistades sama funktsiooni mitu korda.

Ennustamine

Pärast puu ehitamist tehakse ennustamine rekursiivse funktsiooni abil. Sama ennustusprotsessi järgitakse uuesti vasakpoolses või paremas lapsesõlmes ja nii edasi.

Otsustuspuu eelised ja puudused

Allpool on toodud mõned eelised ja puudused:

Eelised

Otsuste puul on masinõppes järgmised eelised:

  • Põhjalik: see võtab arvesse otsuse iga võimalikku tulemust ja jätab iga sõlme vastavalt järeldusele.
  • Konkreetne: otsustuspuud omistavad igale probleemile, otsusele ja tulemusele konkreetse tulemuse. See vähendab ebakindlust ja ebaselgust ning suurendab ka selgust.
  • Lihtsus: otsustuspuu on üks lihtsamaid ja usaldusväärsemaid algoritme, kuna sellel pole keerulisi valemeid ega andmestruktuure. Arvutamiseks on vaja ainult lihtsat statistikat ja matemaatikat.
  • Mitmekülgne: otsustuspuid saab matemaatikat kasutades käsitsi konstrueerida ja kasutada koos teiste arvutiprogrammidega.

Puudused

Otsuste puul on masinõppes järgmised puudused:

  • Otsustuspuud ei ole hinnangute ja rahaliste ülesannete jaoks vähem sobivad, kui vajame sobivat väärtust.
  • Võrreldes teiste arvutuslike algoritmidega on tegemist vigadele kalduva klassifitseerimise algoritmiga.
  • See on arvutuslikult kallis. Igas sõlmes tuleb enne parimate väljaselgitamist kandidaatide jaotus sortida. On ka teisi alternatiive, mida paljud äriüksused järgivad finantsülesannete täitmiseks, kuna otsustuspuu on hindamiseks liiga kallis.
  • Pidevate muutujatega töötades ei sobi otsustuspuu parimaks lahenduseks, kuna kipub muutujate liigitamisel teavet kaotama.
  • See on mõnikord ebastabiilne, kuna väikesed muudatused andmekogumis võivad viia uue puu moodustumiseni.

Järeldus - otsustuspuu masinõppes

Ühe olulisema ja juhendatavama algoritmina mängib otsustuspuu reaalses elus otsustavat rolli. Ennustava mudelina kasutatakse seda paljudes valdkondades selle jagatud lähenemisviisi jaoks, mis aitab erinevatel tingimustel põhinevaid lahendusi tuvastada kas klassifitseerimise või regressioonimeetodi abil.

Soovitatavad artiklid

See on juhend otsustuspuusse masinõppes. Siin käsitleme sissejuhatust, otsustuspuu tüüpe masinõppes, tükeldamist ja puu ehitamist. Lisateavet leiate ka meie muudest soovitatud artiklitest -

  1. Pythoni andmetüübid
  2. Tableau andmekomplektid
  3. Cassandra andmete modelleerimine
  4. Otsustabelite testimine
  5. Masinõppe elutsükli 8 parimat etappi

Kategooria: