Sissejuhatus graafikutesse R

Graafik on tööriist, mis muudab analüüsi olulisel määral. Graafikud on haruldased olulised, kuna need aitavad tulemusi kõige interaktiivsemal viisil esitada. R pakub statistilise programmeerimispaketina mitmesuguseid graafikuid genereerimiseks ulatuslikke võimalusi.

Osa R-s olevatest graafikutest on baaspaigalduses saadaval, kuid teisi saab kasutada vajalike pakettide installimisel. Graafikute R ainulaadne omadus on see, et nad selgitavad keerukaid statistilisi leide visualiseerimise kaudu. Seega on see põhimõtteliselt selline, nagu liigutaksime sammu traditsioonilisest andmete visualiseerimise viisist kõrgemale. R pakub seega sõiduanalüüsi välist lähenemisviisi.

Graafikute tüübid R-s

R-vormingus on saadaval mitmesuguseid graafikuid ja kasutamist reguleerib ainult kontekst. Uurimisanalüüs eeldab aga teatud graafide kasutamist R-s, mida tuleb kasutada andmete analüüsimiseks. Vaatleme nüüd mõnda sellist olulist graafikut R-is.

Erinevate diagrammide tutvustamiseks kasutame baaspaigalduses saadaolevat andmestikku „puud”. Lisateavet andmestiku kohta saate kasutada? puud käsk R-s.

1. Histogramm

Histogramm on graafiline tööriist, mis töötab ühel muutujal. Arv muutujate väärtusi rühmitatakse prügikastidesse ja arvutatakse arv väärtusi, mida nimetatakse sageduseks. Seda arvutust kasutatakse seejärel vastavate ubade sagedusribade joonistamiseks. Riba kõrgust näitab sagedus.

R-s saame histogrammi genereerimiseks kasutada funktsiooni hist (), nagu allpool näidatud. Puude kõrguse lihtne histogramm on näidatud allpool.

Kood:

hist(trees$Height, breaks = 10, col = "orange", main = "Histogram of Tree heights", xlab = "Height Bin")

Väljund:

Sageduse suundumuse mõistmiseks võime lisada ülaltoodud histogrammi kohale tihedusgraafiku. See pakub rohkem teavet andmete levitamise, viltuuse, kurtoosi jms kohta. Järgmine kood teeb seda ja väljund kuvatakse selle koodi järgi.

Kood:

hist(trees$Height, breaks = 10, col = "orange",
+ main = "Histogram of Tree heights with Kernal Denisty plot",
+ xlab = "Height Bin", prob = TRUE)

Väljund:

2. Hajumine

See graafik on lihtne graafikutüüp, kuid väga oluline, millel on tohutu tähtsus. Diagramm annab ülevaate muutujate omavahelisest korrelatsioonist ja on käepärane vahend ettevalmistava analüüsi tegemisel.

Järgmine kood genereerib lihtsa Scatterploti diagrammi. Oleme sellele lisanud trendijoone, et trendist aru saada, tähistavad andmed.

Kood:

attach(trees)
plot(Girth, Height, main = "Scatterplot of Girth vs Height", xlab = "Tree Girth", ylab = "Tree Height")
abline(lm(Height ~ Girth), col = "blue", lwd = 2)

Väljund:

Järgmise koodi järgi loodud diagramm näitab, et puu ümbermõõdu ja puu mahu vahel on hea korrelatsioon.

Kood:

plot(Girth, Volume, main = "Scatterplot of Girth vs Volume", xlab = "Tree Girth", ylab = "Tree Volume")
abline(lm(Volume ~ Girth), col = "blue", lwd = 2)

Väljund:

Hajutatud maatriksid

R võimaldab meil võrrelda mitut muutujat korraga, kuna see kasutab hajus-maatriksit. Visualiseerimise rakendamine on üsna lihtne ja selle saab saavutada kasutades paari () funktsiooni, nagu allpool näidatud.

Kood:

pairs(trees, main = "Scatterplot matrix for trees dataset")

Väljund:

Scatterplot3d

Need võimaldavad visualiseerida kolmes mõõtmes, mis võib aidata mõista mitme muutuja vahelist suhet. Seega, et scatterplotsid 3D-kujul kättesaadavaks teha, tuleb esmalt installida pakett scatterplot3d. Järgmine kood genereerib 3D-graafiku, nagu on näidatud koodi all.

Kood:

library(scatterplot3d)
attach(trees)
scatterplot3d(Girth, Height, Volume, main = "3D Scatterplot of trees dataset")

Väljund:

Allpool toodud koodi abil saame lisada tilgad ja värvid. Nüüd saame hõlpsalt eristada erinevaid muutujaid.

Kood:

scatterplot3d(Girth, Height, Volume, pch = 20, highlight.3d = TRUE,
+ type = "h", main = "3D Scatterplot of trees dataset")

Väljund:

3. Boxplot

Boxplot on viis andmete visualiseerimiseks kastide ja vurride kaudu. Esiteks sorteeritakse muutujad väärtused kasvavas järjekorras ja seejärel jagatakse andmed kvartaliteks.

Krundil olev ruut on keskmisest 50% andmetest, mida tuntakse IQR-na. Kasti must joon tähistab mediaani.

Kood:

boxplot(trees, col = c("yellow", "red", "cyan"), main = "Boxplot for trees dataset")

Väljund:

Sälkudega kastkarbi variant on näidatud allpool.

Kood:

boxplot(trees, col = "orange", notch = TRUE, main = "Boxplot for trees dataset")

Väljund:

4. Joondiagramm

Joondiagrammid on kasulikud mitme muutuja võrdlemisel. Need aitavad meil ühendada mitme muutuja vahel ühte proovitükki. Järgmises illustratsioonis proovime mõista kolme puu tunnuste suundumusi. Niisiis, nagu on näidatud allolevas koodis, joonistatakse Girth algselt ja joondiagramm funktsiooni plot () abil. Seejärel joonistatakse kõrguse ja helitugevuse graafikud samale joonisele, kasutades funktsiooni read ().

Funktsioonis plot () on parameeter „ylim” olnud kõigi kolme rea diagrammi nõuetekohaseks mahutamiseks. Legendi omamine on siin oluline, kuna see aitab mõista, mis rida tähistab millist muutujat. Legendis tähendab parameeter “lty = 1: 1”, et meil on kõigi muutujate jaoks sama rea ​​tüüp ja “cex” tähistab punktide suurust.

Kood:

plot(Girth, type = "o", col = "red", ylab = "", ylim = c(0, 110),
+ main = "Comparison amongst Girth, Height, and Volume of trees")
lines(Height, type = "o", col = "blue")
lines(Volume, type = "o", col = "green")
legend(1, 110, legend = c("Girth", "Height", "Volume"),
+ col = c("red", "blue", "green"), lty = 1:1, cex = 0.9)

Väljund:

5. Punktkrunt

See visualiseerimisriist on kasulik, kui soovime võrrelda mitut kategooriat teatud mõõtmega. Allpool toodud illustratsiooni jaoks on kasutatud mtcarsi andmestikku. Punktdiagramm () tähistab allpool toodud erinevate automudelite nihutamist.

Kood:

attach(mtcars)
dotchart(disp, labels = row.names(mtcars), cex = 0.75,
+ main = "Displacement for various Car Models", xlab = "Displacement in Cubic Inches")

Väljund:

Niisiis, sorteerime nüüd andmekogu nihke väärtuste järgi ja joonestame need erinevate käikude järgi, kasutades funktsiooni dotchart ().

Kood:

m <- mtcars(order(mtcars$disp), ) m$gear <- factor(m$gear)
m$color(m$gear == 3) <- "darkgreen"
m$color(m$gear == 4) <- "red"
m$color(m$gear == 5) <- "blue"
dotchart(m$disp, labels = row.names(m), groups = m$gear, color = m$color, cex = 0.75, pch = 20,
+ main = "Displacement for Car Models", xlab = "Displacement in cubic inches")

Väljund:

Järeldus

Analyticsi võimendatakse tõeses mõttes ainult visualiseerimiste kaudu. R kui statistiline tööriist pakub tugevat visualiseerimisvõimalust. Niisiis, graafikutega seotud arvukad valikud muudavad need eriliseks. Igal diagrammil on oma rakendus ja seda tuleks enne probleemile rakendamist uurida.

Soovitatavad artiklid

See on juhend graafikute kohta R-s. Siin käsitleme R-i graafikute sissejuhatust ja tüüpe, näiteks histogrammi, hajuvusplot, boxploti ja palju muud koos näidete ja teostusega. Lisateabe saamiseks võite vaadata ka järgmisi artikleid -

  1. R andmetüübid
  2. R pakendid
  3. Sissejuhatus Matlabisse
  4. Graafikud vs graafikud

Kategooria: