Otsustuspuu R-s - Põhjalik juhend otsustuspuu kohta R

Lang L: none (table-of-contents):

Anonim

Ülevaade otsustuspuust R-s

Otsusepuu r-s on juhendatud õppe vorm, mida kasutatakse klassifitseerimis- ja regressiooniprobleemide lahendamiseks. Need on tugev masinõppe algoritm väga keerukate andmekogumitega töötamiseks. Otsustuspuu põhikontseptsioon on antud andmekogumi poolitamine. Sellest artiklist läbilugemiseks soovitatakse otsustuspuu algoritmil omada põhilisi õpikäsitusi.

Otsustuspuu R-s

Otsustuspuuga R-is või võhikus töötamiseks on vaja töötada suurte andmekogumitega ja sisseehitatud R-pakettide otsene kasutamine muudab töö lihtsamaks. Otsustuspuu on mittelineaarne eeldusmudel, mis kasutab suhete klassifitseerimiseks puustruktuuri. R-s olev otsustuspuu kasutab kahte tüüpi muutujaid: kategooriline muutuja (jah või ei) ja pidevad muutujad. Otsuspuu terminoloogia, mis koosneb juursõlmest (moodustab klassi sildi), otsussõlmedest (alamsõlmed), lõppsõlmest (ärge jagage rohkem). Selle masinõppe lähenemisviisi ainulaadne kontseptsioon seisneb selles, et nad klassifitseerivad antud andmed klassidesse, mis moodustavad voolu jah või ei (kui lähenemisviis on muu) ja esindavad tulemusi puustruktuuris. R otsustuspuus kasutatav algoritm on Gini indeks, teabe saamine, entroopia. R-otsustuspuu ehitamiseks on saadaval erinevad paketid: rpart (rekursiivne), partei, juhuslik mets, CART (klassifikatsioon ja regressioon). Otsusepuu rakendamine on R-s üsna lihtne.

Selgeks analüüsimiseks on puu jagatud rühmadesse: treeningkomplekt ja testkomplekt. Järgmine teostus kasutab auto andmestikku. See andmekogum sisaldab 1727 obs ja 9 muutujat, millega klassifikatsioonipuu on üles ehitatud. Selles artiklis saab puu "partei" pakett. Funktsioon loob () annab graafiliste funktsioonidega tingimuslikud puud.

Rakendamine R abil

Eesmärk on uurida auto andmestikku, et ennustada, kas auto väärtus on kõrge / madal ja keskmine.

i) Andmete ettevalmistamine

Pakettide ja teekide laadimine

See moodul loeb andmekogumit täieliku andmeraamina ja andmete struktuur on esitatud järgmiselt:

data<-car // Reading the data as a data frame
str(data) // Displaying the structure and the result shows the predictor values.

Väljund:

Determining Factordata$vhigh View(car)
> data<-car

ii) Andmete osadeks jaotamine

Andmete jagamine treeningukomplektide abil. Hea täpsuse saavutamiseks on otsustuspuu jagatud alamsõlmedeks. Keerukuse määravad puu suurus ja veamäär. Siin tehakse reproduktiivsust ja luuakse rida ridu.

set. Seed (1234)
dt<-sample (2, nrow(data), replace = TRUE, prob=c (0.8, 0.2))
validate<-data(dt==2, )

Joonis : andmete väärtuste kuvamine

Järgmisena muutke andmete väärtus kaheks

validate<-data(dt==2, )

Joonis : R-konsooli kuvamine R-stuudios

Otsustuspuu loomine R-is koos paketipeoga

  • Klõpsake nuppu pakett-> installimine -> pidu. Siin on võetud esimesed kolm sisendit andmekogumite 1727 vaatluse valimist. Luues sisendi hulgas kõrge, madala, keskmise prognoosimiseks mudeli.

Rakendamine:

library(party)
tree<-ctree(v~vhigh+vhigh.1+X2, data = train)
tree

Väljund:

Krundid Ctree abil

Ennustamine:

Prob genereerib tõenäosuse skoorimisel,

Rakendamine:

predict(tree, validate, type="prob")
predict(tree, validate)

(1) kõrgel või kõrgel, kõrgel või kõrgel, kõrgel või kõrgel, kõrgel või kõrgel

(12) vhigh vhigh vhigh vhigh vhigh vhigh vhigh vhigh

(23) vhigh vhigh vhigh vhigh vhigh vhigh vhigh vhigh

(34) kõrgel või kõrgel, kõrgel või kõrgel, kõrgel või kõrgel, kõrgel või kõrgel

(45) vhigh vhigh vhigh vhigh vhigh vhigh vhigh vhigh

(56) vhigh vhigh vhigh vhigh vhigh vhigh vhigh vhigh

(67) vhigh vhigh vhigh vhigh vhigh vhigh vhigh vhigh

(78) vhigh vhigh vhigh kõrge kõrge kõrge kõrge kõrge kõrge kõrge kõrge kõrge

(89) kõrge kõrge kõrge kõrge kõrge kõrge kõrge kõrge kõrge kõrge kõrge kõrge

(100) kõrge kõrge kõrge kõrge kõrge kõrge kõrge kõrge kõrge kõrge kõrge kõrge

(111) kõrge kõrge kõrge kõrge kõrge kõrge kõrge kõrge kõrge kõrge kõrge kõrge

(122) kõrge kõrge kõrge kõrge kõrge kõrge kõrge kõrge kõrge kõrge kõrge kõrge

(133) kõrge kõrge kõrge kõrge kõrge kõrge kõrge kõrge kõrge kõrge kõrge kõrge

(144) kõrge kõrge kõrge kõrge kõrge kõrge kõrge kõrge kõrge kõrge kõrge kõrge

(155) kõrge kõrge kõrge kõrge kõrge kõrge kõrge kõrge kõrge kõrge kõrge kõrge

(166) kõrge kõrge kõrge kõrge kõrge kõrge kõrge kõrge kõrge kõrge kõrge kõrge

(177) kõrge kõrge kõrge kõrge keskmine med med med med med med

(188) Med Med Med Med Med Med Med Med Med Med Med Med

(199) Med Med Med Med Med Med Med Med Med Med Med Med

(210) Med Med Med Med Med Med Med Med Med Med Med Med

(221) Med Med Med Med Med Med Med Med Med Med Med Med

(232) Med Med Med Med Med Med Med Med Med Med Med Med

(243) med med med med med med med med med med med

(254) med med med med med med med med madal madal

(265) madal madal madal madal madal madal madal madal madal madal madal

(276) madal madal madal madal madal madal madal madal madal madal madal

(287) madal madal madal madal madal madal madal madal madal madal madal

(298) madal madal madal madal madal madal madal madal madal madal madal

(309) madal madal madal madal madal madal madal madal madal madal madal

(320) madal madal madal madal madal madal madal madal madal madal madal

(331) madal madal madal madal madal

Tasemed: kõrge, madal ja kõrge

Otsustuspuu kasutades rpart

Klassi ennustamiseks, kasutades klassi meetodi funktsiooni rpart (). rpart () kasutab sõlmede jagamiseks Gini indeksi mõõtmist.

library(rpart)
tr<-rpart (v~vhigh+vhigh.1+X2, train)
library (rpart. plot)
rpart. plot(tr)

rpart.plot(tr, extra=2)

See joon joonistab puu ja 2-le komplekti lisafunktsioonide loomise tõenäosuse kuvamiseks ning saadud tulemus on toodud allpool.

Vale klassifitseerimise viga

Veamäär hoiab ära liigse paigaldamise.

tbl<-table(predict(tree), train $v)
print(tbl)
tepre<-predict(tree, new=validate)

Väljund:

print (tbl)

kõrge madal med

kõrge 332 0 0 0

madal 0 359 0 0

med 0 0 350 0

vhigh 0 0 0 351

Järeldus

Otsustuspuu on R-s peamine väljakutse ja puu tugevus on see, et neid on teiste mudelitega võrreldes hõlpsasti mõistetav ja loetav. Neid kasutatakse populaarselt andmeteaduste probleemides. Need on tööriistad statistilises analüüsis rakendatud otsuste hierarhias. Otsustuspuu loogiliste tõlgenduste mõistmiseks on vaja statistilisi teadmisi. Nagu nägime, on otsustuspuud hõlpsasti mõistetavad ja tulemused on tõhusad, kui sellel on vähem klassimärgiseid ja teine ​​nende negatiivne külg, kui klasside silte on rohkem, arvutused muutuvad keerukaks. See postitus paneb õppima ennustava ja puupõhise õppe mudeleid.

Soovitatavad artiklid

See on juhend otsustuspuu juurde R. Siin käsitleme R. sissejuhatust, kuidas kasutada ja rakendada. Lisateabe saamiseks võite tutvuda ka meie teiste soovitatud artiklitega -

  1. Mis on Java binaarne puu?
  2. R programmeerimiskeel
  3. Mis on Visual Studio kood?
  4. Sissejuhatus joongraafikusse R-s
  5. Binoomjaotuse juhend R-is