Andmeteaduse algoritmid - Andmeteaduse algoritmide ülevaade ja tüübid

Sissejuhatused andmeteaduse algoritmidesse

Andmeteaduses kasutatavate oluliste algoritmide kõrgetasemeline kirjeldus. Nagu te juba teate, on andmeteadus õppesuund, kus otsused võetakse vastu andmete põhjal saadud arusaamade põhjal, mitte klassikaliste reeglipõhiste deterministlike lähenemisviiside asemel. Tavaliselt võime masinõppe ülesande jagada kolmeks osaks

Andmete hankimine ja äriprobleemi kaardistamine
Masinõppe tehnikate rakendamine ja jõudlusmõõdiku jälgimine
Mudeli testimine ja juurutamine

Kogu selle elutsükli vältel kasutame käsiloleva ülesande lahendamiseks erinevaid andmeteaduste algoritme. Selles artiklis jagame kõige sagedamini kasutatavad algoritmid nende õppimistüüpide põhjal ja peame nende üle kõrgetasemelist arutelu.

Andmeteaduse algoritmide tüübid

Õppemetoodikate põhjal saame masinõppe või infoteaduse algoritmid jagada lihtsalt järgmisteks tüüpideks

Juhendatud algoritmid
Järelevalveta algoritmid

1. Juhendatud algoritmid

Nagu nimigi ütleb, on juhendatud algoritmid masinõppe algoritmide klass, kus mudelit treenitakse märgistatud andmetega. Näiteks soovite ajalooliste andmete põhjal ennustada, et klient võlgneb laenu või mitte. Pärast märgistatud andmete eeltöötlust ja funktsioonide väljatöötamist koolitatakse juhendatud algoritme struktureeritud andmete üle ja testitakse uue andmepunkti kaudu või sel juhul laenu maksejõuetuse prognoosimiseks. Sukeldugem kõige populaarsemate juhendatud masinõppe algoritmidesse.

K lähimad naabrid

K lähimad naabrid (KNN) on üks lihtsamaid, kuid samas võimsaid masinõppe algoritme. See on juhendatud algoritm, kus klassifitseerimine toimub k lähima andmepunkti alusel. KNNi idee seisneb selles, et sarnased punktid on rühmitatud, lähimate andmepunktide omadusi mõõtes saame testi andmepunkti liigitada. Näiteks lahendame standardse klassifitseerimise probleemi, kus tahame ennustada, et andmepunkt kuulub klassi A või klassi B. Olgem k = 3, nüüd testime 3 testi andmepunkti lähimat andmepunkti, kui neist kaks kuulub klassi A kuulutame katseandmete punkti klassiks A, vastasel juhul klassiks B. K õige väärtus leitakse ristvalideerimise teel. Sellel on lineaarne ajaline keerukus, mistõttu ei saa seda kasutada madala latentsusajaga rakendustes.

Lineaarne regressioon

Lineaarne regressioon on jälgitav andmeteaduse algoritm.

Väljund:

Muutuja on pidev. Idee on leida hüper lennuk, kus maksimaalne punktide arv asub hüper lennukis. Näiteks vihma hulga ennustamine on tavaline regressiooniprobleem, kus saab kasutada lineaarset regressiooni. Lineaarne regressioon eeldab, et sõltumatute ja sõltuvate muutujate vaheline seos on lineaarne ja multikollineaarsust on väga vähe või puudub üldse.

Logistiline regressioon

Kuigi nimi ütleb regressiooni, on logistiline regressioon juhendatud klassifitseerimise algoritm.

Väljund:

Geomeetriline intuitsioon seisneb selles, et lineaarse otsuse piiri abil saame klasside erinevad sildid eraldada. Logistilise regressiooni väljundmuundur on kategooriline. Pange tähele, et me ei saa logistilise regressiooni kulufunktsioonina kasutada ruutkeskmist viga, kuna see on logistilise regressiooni korral mitte kumer.

Tugi vektorimasinale

Logistilise regressiooni puhul oli meie peamiseks motoks eraldava lineaarse pinna leidmine.

Väljund:

Võime tugiteenuste vektorit käsitleda selle idee laiendusena, kus peame leidma hüpertasandi, mis suurendab varu. Mis on varu? Vektori W (otsustuspind, mille jaoks peame leidma) joonistame mõlemale küljele kaks paralleelset joont. Nende kahe sirge vahelist kaugust nimetatakse veeriseks. SVM eeldab, et andmed on lineaarselt eraldatavad. Ehkki SVL-i saab mittelineaarsete andmete jaoks kasutada ka Kerneli triki kasutades.

Otsustuspuu

Otsusepuu on pesastatud If-Else põhine klassifikaator, mis kasutab otsuse tegemiseks puudetaolist graafistruktuuri. Otsustuspuud on väga populaarsed ja kogu andmeteaduse valdkonnas üks enim kasutatud juhendatud masinõppe algoritme. See tagab parema stabiilsuse ja täpsuse enamikul juhtudel võrreldes teiste juhendatud algoritmidega ning on robustselt ületatud. Otsustuspuu väljundmuutuja on tavaliselt kategooriline, kuid seda saab kasutada ka regressiooniprobleemide lahendamiseks.

Ansamblid

Ansamblid on populaarne andmeteaduste algoritmide kategooria, kus parema jõudluse saavutamiseks kasutatakse koos mitu mudelit. Kui olete kursis Kaggle'iga (google'i platvorm andmeteaduste väljakutsetega tegelemiseks ja selles konkureerimiseks), leiate kõige võitjalahendused, kasutades mingisuguseid ansambleid.

Saame laias laastus jagada ansamblid järgmistesse kategooriatesse

Kottimine
Elavdamine
Virnastamine
Kaskaadne

Juhuslik mets, gradiendi suurendamise otsustuspuud on näited populaarsetest ansamblialgoritmidest.

2. Järelevalveta algoritmid

Nende ülesannete jaoks, kus andmed on sildistamata, kasutatakse järelevalveta algoritme. Kõige populaarsem järelevalveta algoritmide kasutamise juhtum on klasterdamine. Klastrite moodustamise ülesanne on sarnaste andmepunktide rühmitamine ilma käsitsi sekkumiseta. Arutleme siin mõne populaarse juhendamata masinõppe algoritmi üle

K tähendab

K Means on juhuslik juhendamata algoritm, mida kasutatakse rühmitamiseks. K Means järgib järgmisi samme

1.Indialiseerige K-punktid juhuslikult (c1, c2..ck)

2. Andmekogumi iga punkti (Xi) jaoks

Valige lähim Ci (i = 1, 2, 3..k)

Lisage Xi Ci-le

3. Arvutage keskpunkt uuesti, kasutades õigeid mõõdikuid (st klastri sisemist kaugust).

4, korrake sammu (2) (3), kuni see ühtlustub

K tähendab ++

K-vormingus initsialiseerimise samm on puhtjuhuslik ja põhineb initsialiseerimisel klastrimine drastiliselt. K tähendab ++, et lahendada see probleem, lähtestades k tõenäosuslikult puhta juhuslikkuse asemel. K tähendab ++ on stabiilsem kui klassikaline K tähendab.

K Medoids:

K medoidid on ka K keskmistel põhinev rühmituse algoritm. Peamine erinevus nende kahe vahel on K keskpunkti keskpunktide keskpunktid, mida ei esine tingimata andmekogumis, mis aga K medoidide puhul ei kehti. K medoidid pakuvad klastrite paremat tõlgendatavust. K tähendab minimeerib ruutvea summaarsuse, K medoids minimeerib punktide erinevuse.

Järeldus

Selles artiklis arutasime kõige populaarsemaid andmeõppe valdkonnas kasutatavaid masinõppe algoritme. Pärast kõiki neid võib teile pähe tulla küsimus, et ' Milline algoritm on parim? ' Siin pole ilmselgelt võitjat. See sõltub ainult käsil olevast ülesandest ja ärinõuetest. Parim tava algab alati kõige lihtsama algoritmiga ja suurendab keerukust järk-järgult.

Soovitatavad artiklid

See on olnud andmeteaduse algoritmide juhend. Siin on arutatud andmeteaduste algoritmide ülevaadet ja kahte tüüpi andmeteaduse algoritme. Lisateavet leiate ka meie antud artiklitest -