Mis on NLP Pythonis?

Tehisintellekt on viimase kümnendi jooksul tohutult arenenud ja nii on ka üks selle alavaldkondadest - looduskeele töötlemine. AI edasiminek on kaasaegsete süsteemide tohutu arvutusvõime ja suure hulga allikatest genereerimata struktureerimata andmete mahu tulemus. Looduslik keele töötlemine ehk NLP on AI uurimine, mis võimaldab arvutitel töödelda töötlemata struktureerimata tekstilisi andmeid ja saada sellest varjatud teadmisi.

Definitsioon

Erinevalt inimestest pole arvutid struktureerimata andmete töötlemiseks piisavalt nutikad. Inimene võiks sellistest andmetest tähendusi tuletada, samas kui arvutid võisid seda teha ainult andmebaasides talletatud struktureeritud andmetega. Mustrite leidmiseks ja looduslike andmete tähenduse saamiseks kasutavad arvutid selliste andmete töötlemiseks NLP-ga seotud tööriistu ja tehnikaid.

Kuidas NLP Pythonis töötab?

Inglise keele lugemine ja mõistmine on väga keeruline. Allpool asuv lause on üks selline näide, kus arvutil on lause taga olev mõte tegelikult raskesti mõistetav.

Masinõppes ehitatakse iga probleemi jaoks torujuhe, kus iga probleemi osa lahendatakse eraldi, kasutades ML-i. Lõpptulemuseks oleks mitme masinõppe mudeli kombinatsioon. Looduslik keele töötlemine toimib sarnaselt sellele, kus ingliskeelne lause jaguneb tükkideks.

Selles lõigus on mitu fakti. Asjad oleksid olnud lihtsad, kui arvutid ise saaksid aru, mis London on, kuid selleks on vaja arvutid koolitada kirjakeele põhimõistetega.

1. Lausete segmenteerimine - korpus on jagatud mitmeks lauseks nagu allpool.

See muudaks meie elu lihtsamaks, kuna parem on töödelda ühte lauset kui lõiku tervikuna. Jaotuse võib teha kirjavahemärkide või mitme muu keeruka meetodi alusel, mis töötab ka puhastamata andmete korral.

2. Sõna märgistamine - lause võib jagada sõnade märgiks veelgi, nagu allpool näidatud.

Pärast märgistamist jaguneb ülaltoodud lause järgmisteks osadeks:

3. Kõne ennustamise osad - see protsess seisneb kõneosade genereerimises iga märgi jaoks. See võimaldaks meil mõista lause tähendust ja teemat, millest lauses räägitakse.

4. Lemmatiseerimine - sõna lauses võib esineda erineval kujul. Lemmatiseerimine jälgib sõna tagasi selle juure, st iga sõna lemmat.

5. Sõnade tuvastamise peatamine - lauses on palju täitesõnu, näiteks „the”, „a”. Need sõnad käituvad nagu müra tekstis, mille tähendust me proovida saada. Seetõttu on parema mudeli ehitamiseks vaja need peatussõnad välja filtreerida.

Rakenduse põhjal võivad stoppsõnad erineda. Siiski on olemas eelmääratletud peatuste loetelu, millele võiks viidata.

6. Nimega olemi tunnustamine - NER on protsess, mille käigus otsitakse lausest üksused, nagu nimi, koht, inimene, organisatsioon jne.

Siin kasutatakse sõna lauses ilmumise konteksti. Struktureeritud andmete eemaldamiseks tekstist on NER-süsteemidel palju kasutusvõimalusi.

NLP näide Pythonis

Enamik ettevõtteid on nüüd valmis oma ettevõtte kasvuks töötlema struktureerimata andmeid. NLP-l on lai kasutusala ja levinumad kasutusjuhud on tekstiklassifikatsioon.

Teksti klassifitseerimist automaatselt erinevatesse kategooriatesse nimetatakse teksti klassifikatsiooniks. Rämpsposti või sinki tuvastamine e-kirjas, uudiste artiklite kategoriseerimine on mõned tavalisemad näited teksti klassifitseerimisel. Sel eesmärgil kasutatavad andmed tuleb märgistada.

Teksti klassifitseerimise torustiku mõned sammud, mida tuleb järgida, on -

  • Esimene samm on andmete laadimine ja eeltöötlus ning seejärel jagatakse need rongiks ja valideerimise komplekt.
  • Funktsiooni projekteerimise samm hõlmab kasulike funktsioonide ekstraheerimist või täiendavate tähenduslike funktsioonide loomist, mis aitaks välja töötada paremat ennustusmudelit.
  • Mudeli ehitamiseks kasutatakse mudeli koolitamiseks märgistatud andmestikku.

Pandas, Scikit-learning, XGBoost, TextBlog, Keras on vähe vajalikest raamatukogudest, mida peame installima. Siis impordiksime andmebaasid andmekogumite ettevalmistamiseks, funktsioonide kujundamiseks jne.

Andmed on tohutud - peaaegu 3, 6 miljonit arvustust võiks siit alla laadida. Kasutatakse murdosa andmetest. See laaditakse alla ja loetakse Pandase andmeraami.

Sihtmuutuja kodeeritakse ja andmed jaotatakse rongideks ja katsekogumiteks.

Funktsioonide kujundamine toimub järgmiste erinevate meetodite abil.

1. Loendusvektorid - dokumendi, termini ja selle esinemissageduse korpusest saavutatakse loendusvektoritega.

2. TF-IDF-vektorid - dokumendis tähistavad termini suhtelist olulisust termini sagedus (TF) ja dokumendi pöördvõrdelise sageduse (IDF) skoor. TF-IDF-i saab arvutada -

TF-IDF-vektoreid saab genereerida Wordi tasemel, mis näitab iga termini tulemust, ja N-grammi tasemel, mis on n-terminite kombinatsioon.

3. Sõna kinnistamine - dokumentide ja sõnade kujutist tiheda vektori kujul nimetatakse sõna kinnistamiseks. Seal on eelkoolitatud manustamine, näiteks Glove, Word2Vec, mida saab kasutada või mida saab ka koolitada.

4. Teemamudelid - kõige rohkem teavet sisaldab dokumendist pärit sõnade rühm. Teema modelleerimiseks kasutatakse siin latentse dirichleti jaotust.

Režiim luuakse pärast funktsioonide kavandamist ja vastavate funktsioonide kaevandamist.

5. Naiivne Bayes - see põhineb Bayesi teoreemil ja algoritm usub, et andmestiku omaduste vahel pole seost.


6. Logistiline regressioon - see mõõdab tunnuste vahelist lineaarset suhet ja sihtmuutujat mõõdetakse sigmoidfunktsiooni alusel, mis hindab tõenäosusi.


7. Tugivektorimasin - hüper lennuk eraldab SVM-is kaks klassi.


8. Juhusliku metsa mudel - ansamblimudel, mis vähendab dispersiooni ja koondab mitu otsustuspuud kokku.


9. XG suurendamine - eelarvamused vähenevad ja nõrgad õppijad muutuvad tugevateks.

Kuidas NLP aitaks teid teie karjääris?

Looduskeele töötlemine on turul hoogsalt arenev valdkond ja peaaegu iga organisatsioon vajab NLP-inseneri, et aidata neil töötlemata andmeid. Seega on hädavajalik omandada vajalikud oskused, kuna töökohal ei oleks töökohti.

Järeldus: NLP Pythonis

Selles artiklis alustasime Pythonis NLP-i sissejuhatusega ja seejärel rakendasime Pythonis ühe kasutusjuhtumi, et näidata, kuidas töötada Pythonis NLP-ga.

Soovitatavad artiklid

See on olnud Pythonil asuva NLP juhend. Siin arutasime näite, juhtumite kasutamise ja Pythonis NLP-ga töötamise näite üle. Lisateavet leiate ka meie muudest soovitatud artiklitest -

  1. Pythoni kasutusalad
  2. Mis on WBS?
  3. Python vs Scala
  4. Mis on Tableau?

Kategooria: