Tutvustame korduvaid närvivõrke (RNN)

Korduv närvivõrk on kunstliku närvivõrgu (ANN) üks tüüp ja seda kasutatakse loodusliku keele töötlemise (NLP) ja kõnetuvastuse rakendusaladel. RNN-mudeli eesmärk on tuvastada andmete järjestikused omadused ja seejärel kasutada mustreid tuleva stsenaariumi ennustamiseks.

Korduvate närvivõrkude töö

Kui räägime traditsioonilistest närvivõrkudest, siis on kõik väljundid ja sisendid üksteisest sõltumatud, nagu on näidatud alloleval diagrammil:

Kuid korduvate närvivõrkude korral suunatakse eelmiste sammude väljund praeguse oleku sisendisse. Näiteks mis tahes sõna järgmise tähe ennustamiseks või lause järgmise sõna ennustamiseks on vaja eelnevad tähed või sõnad meelde jätta ja need mingisugusesse mällu salvestada.

Peidetud kiht jätab meelde jada puudutavat teavet. Lihtne reaalse elu näide, mida saame RNN-iga seostada, on filmi vaatamise ajal ja paljudel juhtudel võime ennustada, mis juhtub järgmisena, aga mis siis, kui keegi just liitub filmiga ja temal palutakse ennustada, mida kas juhtub järgmine? Milline on tema vastus? Tal pole aimugi, sest nad pole filmi varasematest sündmustest teadlikud ja neil pole selle kohta mingit mälu.

Tüüpilise RNN-mudeli illustratsioon on toodud allpool:

RNN-i mudelitel on mälu, mis mäletab alati seda, mida eelmistes sammudes tehti ja mida on arvutatud. Kõigile sisenditele tehakse sama ülesanne ja RNN kasutab iga sisendi jaoks sama parameetrit. Kuna traditsioonilisel närvivõrgul on sõltumatud sisend- ja väljundkomplektid, on need keerukamad kui RNN.

Proovime nüüd näite abil mõista korduvat närvivõrku.

Oletame, et meil on närvivõrk, millel on 1 sisendkiht, 3 peidetud kihti ja 1 väljundkiht.

Kui räägime muudest või traditsioonilistest närvivõrkudest, siis on neil varjatud kihtides oma eelarvamuste ja raskuste komplektid, näiteks (w1, b1) varjatud 1. kihi jaoks, (w2, b2) varjatud 2. kihi ja (w3, b3). ) kolmanda varjatud kihi jaoks, kus: w1, w2 ja w3 on kaalud ja, b1, b2 ja b3 on nihked.

Seda arvestades võime öelda, et iga kiht ei sõltu teisest ja et nad ei mäleta eelmise sisendi kohta midagi:

Nüüd teeb RNN järgmist:

  • Sõltumatud kihid teisendatakse sõltuvaks kihiks. Selleks pakutakse kõikidele kihtidele ühesuguseid nihkeid ja kaalu. See vähendab ka parameetrite ja kihtide arvu korduvas närvivõrgus ning aitab RNNil eelmist väljundit meelde jätta, väljastades eelneva väljundi eelseisva peidetud kihi sisendina.
  • Kokkuvõtlikult võib kõik peidetud kihid ühendada üheks korduvaks kihiks, nii et kaalu ja eelpinge on kõigi peidetud kihtide jaoks ühesugused.
    Nii näeb korduv närvivõrk välja järgmine:

Nüüd on aeg käsitleda mõnda RNN-mudeli võrrandit.

  • Praeguse oleku arvutamiseks

h t= f (h t-1, x t ),

Kus:

x t on sisendseisund
h t-1 on eelmine olek,
h t on hetkeseis.

  • Aktiveerimisfunktsiooni arvutamiseks

h t= tanh (W hh h t-1 +W xh x t ),

Kus:
W xh on kaal sisendneuronis,

W hh on korduva neuroni kaal.

  • Väljundi arvutamiseks:

Y t =W hy h t.

Kus,
Y t on väljund ja
W hy on väljundkihi mass.

Korduva närvivõrgu treenimise sammud

  1. Sisestuskihtides saadetakse algsisend kõigil sama kaalu ja aktiveerimisfunktsiooniga.
  2. Kasutades praegust sisendit ja eelmist olekuväljundit, arvutatakse hetkeseis.
  3. Nüüd saab hetkeseis h t teist korda sammuks h t-1 .
  4. See kordab kõiki toiminguid ja iga konkreetse probleemi lahendamiseks võib sama palju kordi ühineda kõigi eelnevate toimingutega.
  5. Seejärel arvutatakse viimane etapp lõppseisundi ja kõigi teiste eelnevate sammude järgi.
  6. Nüüd genereeritakse tõrge, arvutades erinevuse tegeliku ja meie RNN mudeli genereeritud väljundi vahel.
  7. Viimane samm on siis, kui toimub tagasitoomise protsess, kus viga levitatakse kaalude värskendamiseks.

Korduvate närvivõrkude eelised

  1. RNN saab töödelda mis tahes pikkusega sisendeid.
  2. RNN-mudel on modelleeritud nii, et see mäletab kogu teavet kogu aja vältel, mis on igast aegrea ennustajast väga kasulik.
  3. Isegi kui sisendi suurus on suurem, ei suurene mudeli suurus.
  4. Kaalu saab jagada ajaetappide vahel.
  5. RNN saab oma sisemälu kasutada suvaliste sisendite seeria töötlemiseks, mis ei ole edasisuunaliste närvivõrkude puhul nii.

Korduvate närvivõrkude puudused

  1. Korduva olemuse tõttu on arvutamine aeglane.
  2. RNN-i mudelite koolitamine võib olla keeruline.
  3. Kui kasutame aktiveerimisfunktsioonidena relu või tanh, siis on väga pikkade järjestuste töötlemine väga keeruline.
  4. Kalduvus sellistele probleemidele nagu plahvatamine ja gradiendi kadumine.

Järeldus

Selles artiklis oleme õppinud teist tüüpi tehisnärvivõrku, mida nimetatakse korduvaks närvivõrgustikuks. Oleme keskendunud peamisele erinevusele, mis eristab RNN-i teistest tüüpi närvivõrkudest, piirkondadest, kus seda saab laialdaselt kasutada, näiteks kõnetuvastuses. ja NLP (loomuliku keele töötlemine). Lisaks oleme maha jäänud RNN-i mudelite ja funktsioonide tööst, mida kasutatakse tugeva RNN-mudeli ehitamiseks.

Soovitatavad artiklid

See on korduvate närvivõrkude juhend. Siin käsitleme RNN-i sissejuhatust, toimimist, samme, eeliseid ja puudusi jne. Lisateabe saamiseks võite tutvuda ka meie teiste soovitatud artiklitega -
  1. Mis on närvivõrgud?
  2. Masinõppe raamistikud
  3. Sissejuhatus tehisintellekti
  4. Sissejuhatus suurandmete analüüsi
  5. Neuraalsete võrkude rakendamine

Kategooria: