Sissejuhatus R histogrammi

Selles artiklis alustame R-i rakendamise ja kohandamise põhihistogrammiga. Histogrammil on andmete visualiseerimisel oluline roll andmete analüüsimisel. R-programmeerimine on spetsiaalne keskkond statistilise andmetöötluse jaoks ja andmetöötluse põhialused. R programmeerimisel on rühmitatud andmekogumid ja funktsioonid pakettidena. Enamik visuaalse analüüsi programme kasutab histogramme ja vaikeseadeks on prügikasti laius. Need võimaldavad kiiresti aru saada andmetest, millel on andmeteaduses esmane roll. Siinkohal koostame R-käskude abil histogrammi.

Mis on Histogramm?

Histogramm on piltlik esitus andmekogumijaotusest, mille abil saaksime hõlpsalt analüüsida, milline tegur sisaldab suuremat andmemahtu ja kõige vähem andmeid. Teisisõnu võimaldab histogramm teha kumulatiivseid sageduse graafikuid x- ja y-teljel. Tegelikult võtavad histogrammid nii grupeeritud kui ka grupeerimata andmeid. Grupeeritud andmete jaoks konstrueeritakse histogramm, võttes arvesse klassi piire, samas kui rühmitamata andmete jaoks on vaja moodustada grupeeritud sagedusjaotus. Need aitavad tõhusalt analüüsida andmete ulatust ja asukohta. Andmejaotuse ajal kasutatakse histogrammide mõnda tavalist struktuuri nagu tavaline, viltu ja kalju.

Erinevalt tulpidest ei ole diagrammi histogrammil ribade vahel lünki ja siin olevad ribad on nimetatud prügikastideks, mille andmed on esitatud võrdse intervalliga. Histogramm võtab pideva muutuja ja jagab intervallideks, on vaja valida õige prügikasti laius. Suurim erinevus tulpdiagrammi ja histogrammi vahel on see, et esimene kasutab joonistamiseks nominaalseid andmekogumeid, samal ajal kui histogramm joonistab pidevaid andmekogumeid. R kasutab histogrammide loomiseks funktsiooni hist (). See funktsioon hist () kasutab histogrammi joonistamiseks väärtuste vektorit. Histogramm koosneb x-telje pidevate väärtuste vahemikust, y-telg joonistab x-telje andmete sagedased väärtused koos kõrguse muutuste ribadega.

Süntaks:

Histogrammi loomise süntaks on

hist (v, main, xlab, xlim, ylim, breaks, col, border)
where v – vector with numeric values
main – denotes title of the chart
col – sets color
border -sets border color to the bar
xlab - description of x-axis
xlim - denotes to specify range of values on x-axis
ylim – specifies range values on y-axis
break – specifies the width of each bar.

Histogrammi loomine R-s

Analüüsiks nõuab eesmärgi histogramm R. R-i importimiseks mõnda sisseehitatud andmestikku ja selle raamatukogudel on mitmesuguseid graafilisi pakette ja funktsioone. Siin kasutatakse Šveitsi ja lennureisijate andmekogumit. Antud andmeväärtuse histogrammi arvutamiseks kasutatakse funktsiooni hist () koos $ -märgiga, et valida andmestikust andmete kindel veerg histogrammi loomiseks.

Järgmine näide arvutab veerus Šveitsi nimetatud andmekogumi uurimine andmeväärtuse histogrammi.

1. näide: loome lihtsa histogrammi

Kood:

hist (swiss $Examination)

Väljund:

Hist luuakse Šveitsi andmestiku jaoks veeru uurimisega. see tähistab lihtsalt sageduse ja x-teljega prügikasti.

Näide 2: Histogramm enamate argumentidega

Histogrammide paremaks mõistmiseks peame diagrammi visualiseerimise optimeerimiseks hist-funktsioonile lisama rohkem argumente. X ja y sildi muutmine väärtuste vahemikuks. Funktsioonile lisatakse xlim ja ylim argumendid.

Näide:

hist (Air Passengers, xlim=c (150, 600), ylim=c (0, 35))
In the above example x limit varies from 150 to 600 and Y – 0 to 35.
// Adding breaks
hist (AirPassengers,
main="Histogram with more Arg",
xlab="Name List",
border="Green",
col="Orange",
xlim=c (100, 600),
ylim=c(0, 40),
breaks=5)

Väljund:

Koodi kohal on graafik andmestiku Air Passengers väärtuste histogrammil, pealkirjaks on „Histogram for more arg“, x-telje sildil „Nimeloend“ rohelise ja kollase värviga ribad, piirates ribade väärtus vahemikus 100 kuni 600, y-teljele trükitud väärtused kahega ja prügikasti laius 5-ni.

Baarile kahe erineva värvi lisamine

hist (swiss$Examination, col=c ("violet”, "Chocolate2"), xlab="Examination”, las =1, main=" color histogram")

Väljund:

Histogrammile veel ribade lisamine

hist (swiss$Education, breaks=40, col="violet", xlab="Education", main=" Extra bar histogram")

Väljund:

Näide 3: histogramm väärtuses R - see tagastab väärtuse

Air <- AirPassengers
hist (Air)
h <- hist (Air)
h
$breaks

Väljund:

4. näide: Break Argumendi kasutamine kausta laiuse muutmiseks

Kui laiuse vahel on rohkem murdepunkte, eelistatakse väärtust kasutada funktsioonis c ().

hist (AirPassengers, breaks=c (100, seq (200, 700, 150)))

Väljund:

Ülaltoodud graafik võtab riba järjestuse väärtuste kaudu riba laiuse.

Näide 5: Normaalse jaotuskõvera rakendamine histogrammis

Graafiku joonistamiseks kasutame andmeväärtuste jaoks andmekogumit 'swiss'. Jaotusjoone kuvamiseks kasutatakse funktsioonikõverat ().

Kood:

curve (dnorm(x, mean=mean(swiss$Education), sd=sd(swiss$Education)), add=TRUE, col="red")

Väljund:

Näide 6: tõenäosusjaotuse joonistamine

hist (AirPassengers,
main="Histogram ",
xlab="Passengers",
border="Yellow",
col="pink",
xlim=c(100, 600),
las=2,
breaks=6,
prob = TRUE)

Tihedusgraafikute loomine histogrammis R-s

Muutuja jaotus luuakse funktsiooni tiheduse () abil. Allpool on näide andmestiku mtcars kohta. Tiheduskrundid aitavad kuju jaotada.

density () // this function returns the density of the data
library(ggplot2)
d <- density (mtcars $qsec)
plot (d, main=" Density of Miles Per second")
polygon (d, col="orange",>

Väljund:

Using Line () function
hist (swiss$Examination, freq = FALSE, col=c ("violet”, "Chocolate2"),
xlab="Examination”, las =1, main=" Line Histogram")
lines(density(swiss$Examination), lwd = 4, col = "red")

Järgnev histogramm R-ga näitab kõrgust x-teljel ja tihedus on y-teljel.

Väljund:

Järeldus

Seda kõike histogrammi kohta ja just histogramm on andmete mõistmiseks lihtsaim viis. Nagu histogrammi kohta nägime, võiksime joonistada üksikuid, mitut diagrammi, kasutades prügikasti laiust, telje korrigeerimist, värvide muutmist jne. Histogramm aitab visualiseerida andmete erinevaid kujundeid. Lõpuks nägime, kuidas histogramm võimaldab analüüsida andmekogumeid ja klassi siltidena kasutatakse keskpunkte. Histogramm aitab intervallide muutmisel saada andmete täpsemat kirjeldust ja töötab, eriti numbriliste andmetega. histogrammid on analüüsis eelistatavamad, kuna nende eeliseks on suure andmekogumi kuvamine. Väljundi põhjal võisime andmeid visuaalselt viltida ja hõlpsasti teha mõned eeldused.

Soovitatavad artiklid

See on olnud juhend Histogrammist R-s. Siin oleme näidetega arutanud kontseptsiooni, süntaksi ja kuidas luua H-diagrammi R-s. Lisateabe saamiseks võite vaadata ka järgmisi artikleid -

  1. Histogrammi näited
  2. Karjäär R-programmeerimises
  3. Ganti diagramm tabelis
  4. Karjäär programmeerimises
  5. Kuidas luua joongraafikut R-s?

Kategooria: