Sissejuhatus masinõppe mudelitesse

Ülevaade erinevatest praktikas kasutatavatest masinõppe mudelitest. Määratluse järgi on masinõppe mudel matemaatiline konfiguratsioon, mis saadakse pärast konkreetsete masinõppemetoodikate rakendamist. Kasutades laia valikut API-sid, on masinõppe mudeli ehitamine tänapäeval üsna lihtne ja vähem koodiridadega. Rakendusandmete teaduse asjatundja tõeline oskus seisneb aga probleemideklaratsioonil ja ristvalideerimisel põhineva õige mudeli valimises selle asemel, et juhuslikult visata andmeid väljamõeldud algoritmidele. Selles artiklis käsitleme erinevaid masinõppe mudeleid ja kuidas neid tõhusalt kasutada, lähtudes probleemide tüübist, mida nad käsitlevad.

Masinõppe mudelite tüübid

Lähtuvalt ülesannete tüübist saame masinõppe mudelid liigitada järgmistesse tüüpidesse:

  • Klassifikatsioonimudelid
  • Regressioonimudelid
  • Klastrid
  • Mõõtmete vähendamine
  • Sügav õppimine jne

1) klassifikatsioon

Masinõppe osas on klassifitseerimine ülesandeks ennustada objekti tüüpi või klassi piiratud hulga võimaluste piires. Klassifikatsiooni väljundmuutuja on alati kategooriline muutuja. Näiteks on e-kirja ennustamine rämpspost või mitte, see on tavaline kahendklassifitseerimise ülesanne. Pangem nüüd tähele olulisi klassifitseerimisprobleemide mudeleid.

  1. K-Lähimate naabrite algoritm - lihtne, kuid arvutuslikult ammendav.
  2. Naiivne Bayes - põhineb Bayesi teoreemil.
  3. Logistiline regressioon - kahendklassifikatsiooni lineaarne mudel.
  4. SVM - saab kasutada binaarsete / multiklasside klassifikatsioonide jaoks.
  5. Otsuspuu - ' Kui veel ' põhine klassifikaator, tugevam väliste osade suhtes.
  6. Ansamblid - mitme masinõppe mudeli ühendamine, et paremaid tulemusi saada.

2) regressioon

Masinas on regressiooni õppimine probleemide kogum, mille väljundmuutujal on püsiväärtused. Näiteks võib lennufirma hinna ennustamist pidada tavaliseks regressioonülesandeks. Märgime ära mõned olulised praktikas kasutatavad regressioonimudelid.

  1. Lineaarne regressioon - regressioonifunktsiooni lihtsaim lähtemudel, töötab hästi ainult siis, kui andmed on lineaarselt eraldatavad ja multikollineaarsust on väga vähe või üldse mitte.
  2. Lasso regressioon - lineaarne regressioon L2 normaliseerimisega.
  3. Ridge Regression - lineaarne regressioon L1 normaliseerimisega.
  4. SVM regressioon
  5. Otsustuspuu regressioon jne.

3) klastrid

Lihtsamalt öeldes on rühmitamine ülesanne sarnaste objektide rühmitamiseks. Masinõppe mudelid aitavad sarnaseid objekte automaatselt tuvastada ilma käsitsi sekkumiseta. Ilma homogeensete andmeteta ei saa me luua tõhusaid juhendatud masinõppe mudeleid (mudeleid, mida tuleb käsitsi kureeritud või sildistatud andmetega koolitada). Klastrid aitavad meil seda nutikamalt saavutada. Järgnevalt on toodud mõned laialdaselt kasutatavad klastrimudelid:

  1. K tähendab - lihtne, kuid kannatab suure dispersiooniga.
  2. K tähendab ++ - K tähendab modifitseeritud versiooni.
  3. K medoidid.
  4. Aglomeratiivne klasterdamine - hierarhiline klastrimudel.
  5. DBSCAN - tiheduspõhine klasterdamisalgoritm jne

4) Mõõtmete vähendamine

Dimensioonilisus on ennustatavate muutujate arv, mida kasutatakse sõltumatu muutuja või eesmärgi ennustamiseks reaalainete andmekogumites, muutujate arv on liiga suur. Liiga palju muutujaid toob modellidele kaasa ka liigse paigaldamise needuse. Praktikas nende suure hulga muutujate hulgas ei anna kõik muutujad eesmärgi saavutamisele võrdset panust ja paljudel juhtudel võime erinevusi säilitada väiksema arvu muutujatega. Loetleme mõned mõõtmed vähendamiseks tavaliselt kasutatavad mudelid.

  1. PCA - see loob suure hulga ennustajate hulgast vähem uusi muutujaid. Uued muutujad on üksteisest sõltumatud, kuid vähem tõlgendatavad.
  2. TSNE - pakub kõrgema mõõtmega andmepunktide madalama mõõtme manustamist.
  3. SVD - maatriksi väiksemateks osadeks lagundamiseks kasutatakse singulaarse väärtuse lagunemist, et arvutamist tõhusalt muuta.

5) sügav õppimine

Süvaõpe on masinõppe alamhulk, mis tegeleb närvivõrkudega. Neuruvõrkude arhitektuuril põhinedes loetleme olulised süvaõppe mudelid:

  1. Mitmekihiline perceptroon
  2. Konvolutsioonneuraalvõrgud
  3. Korduvad närvivõrgud
  4. Boltzmanni masin
  5. Autokodeerijad jne

Milline mudel on parim?

Eespool võtsime ideid paljude masinõppe mudelite kohta. Nüüd tuleb meelde ilmselge küsimus: "Milline neist on parim mudel?" See sõltub käepärast olevast probleemist ja muudest seotud atribuutidest, näiteks kõrvalnäitajatest, saadaolevate andmete mahust, andmete kvaliteedist, funktsioonide loomisest jne. Praktikas on alati soovitatav alustada probleemi jaoks kõige lihtsamast mudelist ja suurendada keerukust järk-järgult parameetrite nõuetekohase häälestamise ja ristvalideerimise teel. Andmeteaduse maailmas on vanasõna - 'ristvalideerimine on usaldusväärsem kui domeeni tundmine'.

Kuidas luua mudel?

Vaatame, kuidas pütoni Scikit Learn teeki kasutades lihtsat logistilist regressioonimudelit luua. Lihtsuse huvides eeldame, et probleem on standardses klassifikatsioonimudelis ja „train.csv” on rong ning „test.csv” on vastavalt rongi ja katseandmed.

Järeldus

Selles artiklis arutasime praktilistel eesmärkidel kasutatavaid olulisi masinõppe mudeleid ja seda, kuidas pütonis lihtsat masinõppe mudelit üles ehitada. Konkreetseks kasutusjuhtumiks sobiva mudeli valimine on masinõppeülesande õige tulemuse saamiseks väga oluline. Eri mudelite toimivuse võrdlemiseks määratletakse konkreetsete äriprobleemide jaoks hindamismõõdikud või KPI-d ning tootmiseks valitakse parim mudel pärast statistilise jõudluse kontrollimise rakendamist.

Soovitatavad artiklid

See on masinõppe mudelite juhend. Siin käsitleme masinõppe mudelite viit peamist tüüpi ja selle määratlust. Lisateavet leiate ka meie muudest soovitatud artiklitest -

  1. Masinõppe meetodid
  2. Masinõppe tüübid
  3. Masinõppe algoritmid
  4. Mis on masinõpe?
  5. Hüperparameetri masinõpe
  6. KPI Power BI-s
  7. Hierarhiline klasterdamisalgoritm
  8. Hierarhiline rühmitus | Aglomeratiivne ja lõhestav klasterdamine

Kategooria: