Sissejuhatus andmeteaduste masinõppesse

Andmed on põhimõtteliselt teave, eriti faktid või numbrid, mida kogutakse uurimiseks ja arvesse võtmiseks ning mida kasutatakse otsuste tegemisel abiks, või teave elektroonilisel kujul, mida saab arvutis säilitada ja kasutada. Nüüd õpime andmetöötluse ja masinõppe määratlust.

Andmealane teadus (DS) : see on väga lai valdkond, kus saadaolevate andmete kohta, mis võivad olla struktureeritud või struktureerimata andmed, saadakse arusaadava teabe eraldamiseks erinevaid tehnikaid nagu statistilised meetodid, teaduslikud lähenemisviisid, arhitektuuriprotsessid ja mitmesugused algoritmid.

Masinõpe ( ML ): see on andmeteaduse alamhulk. Masinõppes, mis toimub põhiliselt statistiliste mudelite ja erinevate algoritmide abil, koolitatakse masinaid selgesõnalisi juhiseid andmata, tuginedes andmetes loodud mustritele. "

Andmeteaduse olulisus

  • Me elame tehnoloogia ajastul, kus iga inimene kasutab mingil moel tehnoloogiat mugavuse / tõhususe / hõlbustamiseks, näiteks mobiiltelefon / sülearvutid / tahvelarvutid suhtlemiseks, autod / rongid / bussid / transpordiks kasutatavad lennukid, teenused nagu pangandus / elekter ja palju muud elu lihtsustamiseks.
  • Igal sellisel juhul loome teadlikult või teadmatult andmeid nagu kõnelogid / tekstid / sotsiaalmeedia - kõik pildid / videod / ajaveebid on osa andmetest, ka meie navigeerimine GPS-i abil erinevatesse asukohtadesse / sõiduki jõudlus, mis on salvestatud eküü kaudu osa andmetest. Meie tehingud panganduse ja mobiilsete rahakottidega loovad tohutul hulgal andmeid, andmete osa on ka mis tahes piirkonna või sektori elektritarbimine.
  • Ja öeldakse, et see teave kasvab plahvatuslikult päev-päevalt või minut-minutilt.
  • Nüüd tekib küsimus, kas me saame nende andmetega midagi ette võtta? Kas me saame neid andmeid kasutada mõne kasuliku ülevaate saamiseks? Kas saame tõhusust suurendada? Kas me saame neid andmeid kasutada tulevaste tulemuste ennustamiseks?
  • Kõigile sellistele küsimustele vastamiseks on meil valdkond nimega andmeteadus.
  • Andmeteadust võib pidada laiaks valdkonnaks, mis hõlmab andmete kaevandamist, andmete tehnikat, andmete visualiseerimist, andmete integreerimise statistilisi meetodeid, R / python / SQL programmeerimist, masinõpet, suurandmeid ja palju muud.

Mõistame nüüd andmeteaduse olulisi mõisteid.

1. Andmetehnika

Andmetehnoloogia on üks andmeteaduse aspekte, mis keskendub peamiselt andmete rakendustele, andmete kogumisele ja andmete analüüsile. Kogu töö, mida andmeteadlased teevad, meeldib vastata mitmele ennustamise või analüüsiga seotud küsimusele, sisaldab suurt hulka teavet.

Nüüd on neil vaja õiget ja kasulikku teavet, mis tekitab vajaduse olemasolevat teavet koguda ja kinnitada. Need kõik on osa tehnilistest ülesannetest. Mõned neist ülesannetest on nullväärtuste kontrollimine (puuduvad andmed), andmete kategoriseerimine (kategoorilised andmed), andmestruktuuride loomine (assotsieerimiseeskirjad) jne.

2. Andmete visualiseerimine

Andmete visualiseerimine on andmete esitamiseks graafiline lähenemisviis. Siin kasutame Pythoni sisseehitatud raamatukogu visuaalsete elementide, näiteks tabelite, korrelatsioonigraafikute, tulpdiagrammide, paarisdiagrammide jms loomiseks. Andmete visualiseerimine mängib väga olulist rolli, pakkudes väga lihtsat viisi andmete analüüsimiseks, trendide nägemiseks ja mõistmiseks, joonis out outlings jne.

3. Statistiline mõistmine

Statistika mängib andmeteaduse valdkonnas väga olulist rolli. Statistika on väga võimas vahend Data Science (DS) ülesannete täitmiseks. Statistika kasutab olemasoleva teabe tehniliseks analüüsiks matemaatikat. Visualiseerimistega, nagu riba või diagramm, saame trenditeavet, kuid statistika aitab meil andmetega matemaatiliselt / sihipäraselt töötada. Ilma andmete teadmata on teaduse visualiseerimine vaid äraarvamiste mäng.

Arutleme oluliste statistiliste meetodite üle, mida andmeteadlased igapäevaselt kasutavad.

  • Keskmine: keskmine on põhimõtteliselt kõigi andmete keskmine, mis arvutatakse kõigi andmeelementide liitmisel ja jagamisel arvuga. Kasutatakse kõigi elementide keskväärtuse tuvastamiseks.
  • Mediaan: mediaani kasutatakse ka saadaolevate elementide keskväärtuse leidmiseks, kuid siin on kõik andmed järjestatud ja täpset keskmist väärtust peetakse mediaaniks.

Kui elementide arv on paaritu, siis mediaan on ((n + 1) / 2) kolmas termin. Kui mitmed elemendid on paarisarvud, siis on mediaaniks ((n / 2) + 1) kolmas tähtaeg.

  • Režiim: režiim on statistiline parameeter, mis osutab kõige sagedasemale või režiimina käsitletakse väärtust, mis ilmub kõige rohkem kordi.
  • Standardhälve: standardhälve näitab, kui palju levikut andmetes esineb või see on mõõt, mille abil määratletakse haju keskmistest väärtustest või keskmisest väärtusest või oodatavast väärtusest.

Juhul, kui meil on väike standardhälve, näitab see, et enamik andmeväärtusi on keskmise väärtuse lähedal. Kui meil on suur standardhälve, siis on meie andmeväärtused keskmisest väärtusest rohkem eraldatud.

  • Variatsioon : dispersioon on sama mis standardhälve väikese erinevusega, see on standardhälbe ruut. Standardhälve tuletatakse dispersioonist, kuna standardhälve näitab andmete levikut, dispersioon aga näitab ruudu ruutu. Levikut on dispersiooni abil lihtne seostada.
  • Korrelatsioon: korrelatsioon on üks olulisemaid statistilisi mõõtmeid, see näitab, kuidas andmekogumis olevad muutujad on omavahel seotud. Kui muudame ühte parameetrit, kuidas see mõjutab teist parameetrit.

Kui meil on positiivne korrelatsiooniväärtus, tähendab see, et muutujad kas suurenevad või vähenevad paralleelselt

Kui meil on negatiivne korrelatsiooniväärtus, mis tähendab, et muutujad käituvad pöördvõrdeliselt üksteise sammuga, vähenevad ja vastupidi.

Statistikas on meil tõenäosusjaotus, Bayes'i statistika ja hüpoteesi testimine, mis on ka andmeteadlase jaoks väga olulised vahendid.

Masinõpe

Masinõpe tähendab põhimõtteliselt viisi, mille abil masinad saavad sisendfunktsioonide põhjal õppida ja väljundit toota.

Definitsioon: „Masinõpe on õppesuund, kus arvuti õpib olemasolevatest andmetest / ajaloolistest andmetest ilma, et neid oleks selgesõnaliselt programmeeritud”.

Masinõppes keskendutakse arvutite õppeprotsessi automatiseerimisele ja täiustamisele, lähtudes nende sisendandmetest saadud kogemustele, ja me ei programmeeri koodi iga tüüpi probleemide jaoks sõnaselgelt, st masin otsustab, kuidas probleemile läheneda. Siin ei pruugi tulemused olla täpsed, kuid selle võib heaks ennustada.
Mõistame seda nii:

Tavaliselt kasutatakse arvutusprotsessi hõlbustamiseks arvuteid. nii et kui meil on mingi aritmeetiline arvutus. Mida me teeme? Valmistame ette ühe arvutiprogrammi, mis lahendab selle toimingu hõlpsalt ja kiiresti. nt kui tahame lisada kaks olemit, loome ühe tarkvarakoodi, mis võtab kaks sisendit ja väljundis näitab see summeerimist.

Masinõppes on lähenemisviis otsese algoritmi sisestamise asemel erinev, tarkvarakoodi sisestatakse spetsiaalne algoritm, mis proovib mustrit ära tunda ja nende mustrite põhjal proovida parimat võimalikku väljundit ennustada. Siin ei kodeeri me ühegi konkreetse toimingu jaoks ühtegi algoritmi, selle asemel sisestame andmeid masinasse, et teada saada, mis on muster ja mis võiks olla väljund.

Miks me peame seda lähenemist kasutama, kui saame täpseid tulemusi ainult täpse algoritmi kodeerimise teel? Täpsed algoritmid on keerulised ja piiratud. Vaatame seda teisest vaatenurgast, see on ajastu, kus meil on arvukalt andmeid ja see plahvatab iga päev, nagu me eelmises osas arutasime. Siin käsitleme juhendatud ja juhendamata õppimist.

Masinõpe pakub tänapäeval teravat huvi, kuna meil on arvukalt andmeid. Nende andmete mõistmiseks peavad meil olema mingid tähenduslikud tulemused või mingid tähenduslikud mustrid, mida saab analüüsida ja reaalselt kasutada.

Kuid ikkagi, miks meid huvitab masinõpe ja need andmed?

Me teame, et inimkond lihtsalt kordab ajalugu, nagu me oleksime samasugused nagu meie eelmised põlvkonnad, ja ka meie järeltulijad seisavad silmitsi mitmete samade olukordadega, millega praegu silmitsi oleme või oleme kokku puutunud. Selles etapis peame ette kujutama, kuidas ajalooliste andmete abil tulevikus reageerida.
Nüüd teame, et andmed on väga väärtuslik vara.

Väljakutse on see, kuidas saaksime neid olemasolevaid andmeid kõige paremini kasutada?

See on kõige huvitavam teema (kuidas?), Kus hakkame olemasolevaid andmeid mõistma. Masinõppes on põhimõtteliselt 3 lähenemisviisi:

  • Juhendatud õppimine
  • Juhendamata õppimine
  • Tugevdusõpe

Neid kolme lähenemisviisi kasutatakse sellise masinõppe mudeli loomisel nagu (lineaarne regressioon, logistiline regressioon, juhuslik mets, otsustuspuud jne).

Sellel masinõppemudelil on näiteks lai valik rakendusi:

  • Finants: pettuste avastamine
  • Turundus / müük: isikupärastage soovitust
  • Tervishoid: tuvastage haiguse suundumus.

Järeldus - andmeteaduste masinõpe

  • Andmeteadus on lai valdkond, mille masinõpe on alamhulk. Selles analüüsime koos meiega saadaolevaid ajaloolisi andmeid ja proovime ennustada tõenäolisi tulevasi tulemusi.
  • Et ennustada, et peame andmeid puhastama, korraldage andmed (andmetöötlus). Kui andmed on käes, visualiseerime mustrit / suundumusi ja siis statistilise mõistmise kaudu järeldame insightful teavet.
  • Need andmed suunatakse masinasse, kasutades masinõppe algoritmi.
  • Need algoritmid koolitavad masinat ja loovad ühe masinõppe mudeli.
  • Seda mudelit saab siis kasutada ennustamiseks.

Soovitatavad artiklid

See on juhend andmeteaduse masinõppele. Siin arutleme masinate õppimise kõrval ka andmeteaduse olulisuse üle. Lisateabe saamiseks võite vaadata ka järgmisi artikleid -

  1. Parimad andmeteaduste programmid
  2. Andmeteaduslikud oskused
  3. Andmeteaduse keeled
  4. Masinõppe tehnikad
  5. Mis on andmete integreerimine?
  6. Tulpdiagrammi kasutamine Matlabis (näited)
  7. Otsustuspuu masinõppes
  8. Lihtsad viisid otsustuspuu loomiseks

Kategooria: