Sissejuhatus otsustuspuu loomisse

Infosüsteemide poolt tekitatavate andmete hulga hiljutise kiire kasvuga suurte andmekogumite käsitsemiseks on otsustava tähtsusega vajadus otsustuspuu järele, et vähendada arvutamise keerukust. Klassifikaatorite esindamisel võib kõige olulisemaks lähenemisviisiks pidada otsustuspuud. Teisisõnu võime öelda, et andmed on üles ehitatud jagamise ja vallutamise strateegia abil. teada, et oleme alles uurinud. Otsustuspuu on üles ehitatud raamistikuna, et täpsustada otsuste väärtusi ja tõenäosust edasi

m sõlme igal tasemel, aidates otsustajatel valida mitmete sobimatute andmete hulgast õigeid ennustusi. Selles artiklis tutvute juhistega, kuidas lihtsal viisil proovide andmete põhjal otsustuspuud luua.

Mis on otsustuspuu?

Otsustuspuu on binaarne hierarhiline struktuur, mis tuvastab viisi, kuidas iga sõlm jaguneb erinevate tingimuste alusel andmekogumiks. Moodsa lähenemisviisiga optimaalse puu konstrueerimiseks vastusmuutuja klassifitseerimiseks, mis ennustab sihtmuutuja väärtust lihtsate otsustusreeglitega (kui-siis-veel-avaldused). Lähenemisviis on juhendatud õpe, mida enamasti kasutatakse klassifitseerimisprobleemides ja mida peetakse väga tõhusaks ennustavaks mudeliks. Neid kasutatakse erinevates rakendusvaldkondades nagu mängude teooria, tehisintellekt, masinõpe, andmekaevandamine ja sellistes valdkondades nagu turvalisus ja meditsiin.

Kuidas luua otsustuspuu?

Otsustuspuu luuakse ülalt alla viisil lihtsal viisil; need koosnevad sõlmedest, mis moodustavad suunatud sõlme, millel on juursõlmed, millel pole sissetulevaid servi. Kõiki muid sõlmi nimetatakse otsuse-sõlmedeks (sisemised sõlmed ja lehesõlmed, mis vastavad atribuudi ja klassi siltidele), millel on vähemalt üks sisenev serv. Andmekogumite peamine eesmärk on minimeerida üldistusvigu, leides otsustuspuust optimaalse lahenduse.

Allpool selgitatakse otsustuspuu näidet koos näidisandmekogumiga. Eesmärk on elu ja konkurentsi omaduste abil ennustada, kas kasum väheneb või suureneb. Siin on otsustuspuu muutujad kategoorilised (jah, ei).

Andmekogum

Elu Konkurents Tüüp Kasum
Vana Jah Tarkvara Allapoole
Vana Ei Tarkvara Allapoole
Vana Ei Riistvara Allapoole
Keskel Jah Tarkvara Allapoole
Keskel Jah Riistvara Allapoole
Keskel Ei Riistvara Üles
Keskel Ei Tarkvara Üles
Uus Jah Tarkvara Üles
Uus Ei Riistvara Üles
Uus Ei Tarkvara Üles

Ülaltoodud andmekogumist: elu, konkurents, tüüp on ennustajad ja atribuudi kasum on eesmärk. Otsustuspuu rakendamiseks on erinevaid algoritme, kuid parim otsustuspuu ehitamiseks kasutatav algoritm on ID3, mis keskendub ahnele otsingupõhisele lähenemisele. Otsustuspuu järgib otsuse järeldamise reeglit või disjunktiivset tavavormi (^).

Otsustuspuu

Algselt peetakse kogu väljaõppe atribuuti juureks. Atribuutide juurkasse paigutamise järjekorra prioriteet toimub järgmise lähenemisviisi abil. See protsess on teadaolevalt atribuudi valimine, et tuvastada, milline atribuut tehakse igal tasandil juursõlmeks. Puu järgib kahte sammu: puu ehitamine, puu pügamine. Ja andmed on jagatud kõigis otsussõlmedes.

Teabe saamine

See on entroopia muutuse mõõt, mis põhineb sõltumatul muutujal. Otsuste puu peab leidma kõige suurema teabe saamise võimaluse.

Entroopia

Entroopia määratletakse nagu piiratud hulga puhul, juhuslikkuse mõõt andmetes või sündmuse ennustatavus, kui valim on sarnaste väärtustega, on entroopia null ja kui see on valimiga võrdselt jagatud, siis see on üks.

Klassi entroopia

Kus p on kasumi saamise tõenäosus öelda “jah” ja N on kahjum öelda “ei”.

seetõttu entroopia = 1

Kui entroopia väärtus on arvutatud, tuleb atribuudist otsustada juursõlm.

Vanuse entroopia

Atribuudi Life andmekogu järgi on meil kasumimärgise osas vanad = 3 allapoole, keskelt = 2 allapoole ja üks üles.

Elu Pi ni I (pi, ni)
Vana 0 3 0
Keskel 2 2 1
Uus 3 0 0

Kasum = klassi entroopia - elu entroopia = 1 - 0, 4 = 0, 6

Entroopia (võistlus) = 0, 87

Konkurents Pi ni I (pi, ni)
Jah 1 3 0, 8
Ei 4 2 0, 9

Kasum = klassi entroopia - elu entroopia = 1 - 0, 87 = 0, 12

Nüüd kerkib probleem välja atribuudis Life, kus keskel on võrdne tõenäosus nii üles kui ka alla. seetõttu on entroopia 1. samamoodi arvutatakse tüübimäära jaoks jällegi entroopia 1 ja võimendus 0. Nüüd on tehtud täielik otsus keskväärtuse täpse tulemuse saamiseks.

Otsustuspuu eelised

  • Neid on lihtne mõista ja loodud reeglid on paindlikud. Andmete ettevalmistamisega on vähe vaeva nähtud.
  • Otsuste ja tulemuste esitamiseks on visuaalne lähenemisviis väga kasulik.
  • Otsustuspuu töötleb treeningute andmekogumit vigade ja puuduvate väärtustega.
  • Nad saavad hakkama diskreetse väärtuse ja numbrilise atribuudiga. See töötab sisendandmete ja väljundite kategoorilisi ja pidevaid muutujaid.
  • Need on kasulikud tööriistadomeenile, kes peab teatud tingimustel pärast analüüsimist tegema otsused.

Otsustuspuu puudused

  • Õppijad saavad sõltuvalt koolitatud andmetest luua keeruka otsustuspuu. seda protsessi nimetatakse üleliigseks paigaldamiseks, keeruliseks protsessiks otsustuspuu mudelites.
  • Eelistatavad väärtused on kategoorilised, kui need on pidevad, kaotab otsustuspuu teabe, mis viib veale. Eksponentsiaalse arvutuse kasv on analüüsimisel suurem.
  • Paljud klassimärgised viivad valede keerukate arvutusteni ja annavad andmestiku madala ennustustäpsuse.
  • DT algoritmis saadud teave annab kallutatud vastuse kategoorilistele kõrgematele väärtustele.

Järeldus

Seetõttu on otsustuspuud praktiline ja lihtne meetod õppimiseks ning masinõppe tõhusateks vahenditeks, kuna lühikese aja jooksul toimivad nad suurte andmekogumitega hästi. See on õppimisülesanne, mis kasutab üldistava järelduse tegemiseks statistilist lähenemisviisi. Nüüd on see paremini mõistetav, miks otsustuspuud ennustavas modelleerimisel kasutatakse ja andmeteadlaste jaoks on nad võimas tööriist.

Soovitatavad artiklid

See on otsustuspuu loomise juhend. Siin arutame, kuidas luua otsustuspuu koos erinevate eeliste ja puudustega. Lisateavet leiate ka meie muudest soovitatud artiklitest -

  1. Ülevaade otsustuspuust R-s
  2. Mis on otsustuspuu algoritm?
  3. Sissejuhatus tehisintellekti tööriistadesse
  4. 10 parimat tehisintellekti intervjuu küsimust

Kategooria: