Sissejuhatus Python Regexi

Python on tänapäeval tehnoloogiatööstuse võtmesõna. See on keel, mis kogub kiires tempos populaarsust. See on väga dünaamiline keel ja seda saab kasutada veebirakenduste ehitamiseks algoritmide masinõppimiseks. Selles artiklis uurime, kuidas Regexi Pythonis kasutatakse. Regex on regulaarväljenduse lühike vorm ja põhimõtteliselt on see mustrina kasutatav tähemärkide jada. Hea on see, et Pythonil on oma sisseehitatud Regexi pakett, mida tuntakse kui re.

Süntaks:

Me mõistame süntaksit näitega. Selle näite põhjal võime stringi otsida, kas see algab tähega "He" ja lõpeb "nutikaga".

import reword = "He is very smart"
x =re.search("^He.*smart$", word)
print(x)

Kui vaatate süntaksit, on see väga lihtne, peate kõigepealt importima regexi paketi, mis on uuesti, ja seejärel kasutama oma nõudmisel mõnda imporditud paketi funktsioone. Kui käitame ülaltoodud näidiskoodi Jupyteris, saame tulemuseks allpool.

Regexi funktsioonid Pythonis

On palju regexi funktsioone, mis aitavad meil vaste stringi otsida. Enne seda õpime kõigepealt tundma märke, mida tavaliselt näeme regex-funktsioonis.

()

See tähistab märkide komplekti.

.

See tähistab mis tahes märki, välja arvatud uus rida.

*

See tähistab nulli või enamat esinemist.

+

See tähistab ühte või mitut juhtumit.

^

See tähistab algustähte

$

See tähistab lõppevat tegelast.

|

See tähistab kas või.

()

See esindab püüdmist ja rühmitamist.

\

Üldiselt kasutatakse seda erimärkide põgenemiseks

Regexil on ka mõned spetsiaalsed järjestused, millest on kasulik teada näiteks:

\ w

See näitab vastet, kui stringil on mõni sõna tähemärkide komplekt vahemikus (0-9), AZ või az ja alakriips.

\ W

Kui stringil pole ühtegi sõna tähemärki, tagastatakse vaste.

\ d

Need tulud vastavad, kui stringis on numbreid.

\ D

See on vastupidine eelmisele, kuna tagastab vaste, kui stringis pole ühtegi numbrit.

\ s

Seda kasutatakse tühiku tühikute märkimiseks stringis. Kui tühikute tähemärgid on olemas, tagastatakse vaste.

\ S

Tagastab vaste, kui stringis pole tühikuid.

Regexi toimingutes kasutatavad funktsioonid

Vaatame re mooduli erinevaid funktsioone, mida saab kasutada pythoni regex-toimingutes.

1. funktsioon findall (): see funktsioon on olemas moodulis. Tagastab kõigi stringis olevate vastete loendi. See itreerib vasakult paremale üle stringi. Ka vasted tagastatakse täpselt samas järjekorras otsingus. Vaatame selle näite. Oletame, et tahame leida kõik stringis olevad numbrid. Selleks kasutame funktsiooni findall (), milles leiame kõik stringis olevad numbrid. Vaatame selle koodi nüüd:

Kood:

import re
word = "Raju is 22 years old and his mobile number last three-digit is 789"
rgex ='\d+'
x =re.findall(rgex, word)
print(x)

Koodi läbimisel omistatakse põhimõtteliselt muutuja sõna numbritega stringi abil ja seejärel antakse funktsiooni findall () korral argumentide jaoks asjakohane regexi sümbol koos muutuja sõnaga argumentidena

Vaatame nüüd väljundit.

Nagu näete, saame tulemuseks numbrite loendi.

2. otsing () funktsioon: otsimisfunktsiooni kasutatakse stringi mustrite otsimiseks ja kui vaste leitakse, tagastab see objekti. Üks asi, mida peame meeles pidama, on see, et kui vasteid on rohkem kui üks, tagastab see ainult esimese esinemise. Kui vastet ei leita, siis ei tagastata ühtegi. Näeme selle oletamise näidet, kui tahame leida stringi, mis algab konkreetse sõnaga. Testime nii positiivseid kui ka negatiivseid matšide juhtumeid. Vaatame sama koodi.

Kood:

import re
word = "Raju is 22 years old"
rgex ='^Raju'
x =re.search(rgex, word)
print(x)
regex1= '^Mohan'
x1 = re.search(regex1, word)
print(x1)

Siin kasutatakse muutujat „regex” positiivse stsenaariumi korral ja muutuja „regex1” negatiivse stsenaariumi korral. Nüüd vaadake väljundit.

Esimesel juhul saadame vasteobjekti tagasi, teisel juhul tagastatakse 'Puudub'.

3. Funktsioon Split (): see funktsioon jagab stringi iga vaste järel, mis tähendab, et kohe, kui stringis leidub vaste, jagab see funktsiooni stringi sealt. Niisiis, kui on kolm matši, siis toimub kolm jaotust. Näeme näidet. Oletame, et tahame stringi iga tühiku järel jagada. Seega saame seda jagatud funktsiooni selles olukorras hästi kasutada.

Kood:

import re
word = "Raju is 22 years old"
rgex ='\s'
x =re.split(rgex, word)
print(x)

Siin esindavad mustrid tühiku ruumi. Vaatame nüüd väljundit.

Nagu väljundis näete, jaotatakse string iga tühiku järel.

4. funktsioon sub (): see funktsioon asendab vasted kasutaja valitud stringi või tähemärgiga. Põhimõtteliselt tähendab see, et kui stringis on vaste, asendab see vastava märgi või stringi teie stringi või märgiga ja tagastab modifitseeritud stringi. Selleks on vaja kolme argumenti. Näiteks asendame valge tühiku oma stringis lihtsalt tähega &.

Kood:

import re
word = "Raju is 22 years old"
rgex ='\s'
x =re.sub(rgex, '&', word)
print(x)

Vaatame nüüd ülaltoodud koodi väljundit.

Nagu näete, on kõik tühikud asendatud tähtedega &.

Järeldus

Selles artiklis arutasime regex-moodulit ja selle erinevaid Pythoni sisseehitatud funktsioone. Regex on väga oluline ja seda kasutatakse laialdaselt erinevates programmeerimiskeeltes.

Soovitatavad artiklid

See on Python Regexi juhend. Siin käsitleme Python Regexi sissejuhatust ja mõnda olulist regexi funktsiooni koos näitega. Lisateavet leiate ka meie muudest soovitatud artiklitest -

  1. Kuigi silmus Pythonis
  2. Pöördnumber Pythonis
  3. Pythoni märksõnad
  4. Pythoni komplektid
  5. PHP märksõnad
  6. C ++ märksõnad

Kategooria: