Pandas.Dropna tutvustus ()

Pythoni avatud lähtekoodiga raamatukogu Pandas on kahtlemata kõige laialdasemalt kasutatav andmeteaduse ja analüüsi jaoks kasutatav raamatukogu. See on ka eelistatud pakett ad-hoc andmetega manipuleerimise toimingute jaoks. Krediit läheb selle äärmiselt paindlikule andmeesitlusele, kasutades DataFrames ja nendes andmeraamides sisalduvate andmetega manipuleerimisega seotud funktsioonide arsenali. Mis tahes reaalse elu andmeprobleemid põhjustavad puuduvate andmete tekkimise ja selliste andmepunktide eest tuleb kindlasti õigesti hoolitseda. Seda funktsiooni, Pandas.Dropna (), toetab puuduvate andmete käitlemine sobival viisil .

Mis täpselt on Pandas.Dropna ()?

Funktsiooni ametlikuks määratluseks saab vaadata Pydata lehte.

Kuvatud funktsiooni päis on järgmine (koos vaikesätete väärtustega):

DataFrame.dropna(self, axis=0, how='any', thresh=None, subset=None, inplace=False)

Funktsiooni määratluses kuvatavad parameetrid (välja arvatud ise (andmeraami objekt ise)) on järgmised:

  • telg: See osutab orientatsioonile (rida või veerg), millesse andmed visatakse. Võimalikud väärtused on 0 või 1 (vastavalt ka 'indeks' või 'veerud'). 0 / 'indeks' tähistab langevaid ridu ja 1 / 'veerud' tähistavaid veerge.
  • kuidas: määrab stsenaariumi, mille korral tuleb tühistada nullväärtust sisaldav veerg / rida. Väärtused on „suvalised” või „kõik”. 'kõik' kukub rida / veergu ainult juhul, kui kõik rea / veeru väärtused on nullväärtused. „suvaline” kukutab rea / veeru, kui vähemalt üks rea / veeru väärtus on null.
  • thresh: määrab rea / veeru minimaalse arvu mitte-NA väärtusi, et seda saaks lõpptulemuses arvestada. Kõik read / veerud, mille puhul mitte-NA väärtuste arv on <künnisväärtus, eemaldatakse sõltumata teistest läbitud parameetritest. Kui künnis = puudub, siis seda filtrit eiratakse.
  • alamhulk: telg määrab, kas ridu / veerge tuleb langetada. alamhulk võtab vastavalt veergude / ridade loendi (telje vastas), millele vastavalt veergude / ridade täieliku loetelu asemel tuleb otsida null / NA väärtusi.
  • kohapeal: hea tava kohaselt ei muudeta DataFrame'i (või andmete esitust), vaid tagastatakse eraldi koopia koos muudatustega (st mahajäänud read / veerud). inplace atribuut annab teile paindlikkuse, et muuta algset andmestruktuuri ise.

Nüüd, kui meil on üldine idee dropna () poolt paljastatud parameetrite kohta, vaatame puuduvaid andmeid ja kuidas neid käsitleda.

Pandas.Dropna () kasutamise näited ()

Allpool on näited pandas.dropna ():

Import pandad: Dropna () kasutamiseks peab olema olemas DataFrame. DataFrame'i loomiseks tuleb panda teek importida (siin pole üllatust). Impordime selle varjunimega pd, et mugavalt mooduli all olevaid viiteobjekte kasutada. Nullväärtuste määratlemiseks peame kinni numpy.nan. Seega impordime tuima raamatukogu pseudonüümiga np:

Kood:

In (1): import pandas as pd
In (2): import numpy as np

1. Looge manipuleerimiseks DataFrame'i objekt

Pandade importimisel on teie tööruumis saadaval kõik meetodid, funktsioonid ja konstruktorid. Loome siis DataFrame'i, mis aitab meil näidata dropna () kasutamist.

Kood:

In (3): df = pd.DataFrame(
('Company':('Google', 'Amazon', 'Infosys', 'Directi'),
'Age':('21', '23', '38', '22'),
'NetWorth ($ bn)':(300, np.nan, np.nan, 1.3),
'Founder':(np.nan, np.nan, np.nan, np.nan),
'Headquarter-Country':('United States', np.nan, 'India', 'India') ))
In (4): print(df)
Company Age NetWorth ($ bn) Founder Headquarter-Country
0 Google 21 300.0 NaN United States
1 Amazon 23 NaN NaN NaN
2 Infosys 38 NaN NaN India
3 Directi 22 1.3 NaN India

Trükitud DataFrame'iga manipuleeritakse allpool toodud demonstratsioonis.

2. Ridade ja veergude väljalangemine

Telje parameetrit kasutatakse ridade või veergude langetamiseks, nagu allpool näidatud.

Kood:

In (5): df.dropna(axis=1)

Väljund:

Out(5):
Company Age
0 Google 21
1 Amazon 23
2 Infosys 38
3 Directi 22

Kõik veerud, mis sisaldavad raku väärtuseks vähemalt 1 NaN, tilk langeb. Vaatame, kuidas read (telg = 0) töötavad.
Märkus : see on vaikekäitumine, kui telge pole selgesõnaliselt määratletud.

Kood:

In (6): df.dropna(axis=0)

Väljund:

Out(6):
Empty DataFrame
Columns: (Company, Age, NetWorth ($ bn), Founder, Headquarter-Country) Index: ()

Hmm, seega pole tagastatud DataFramis enam andmeid! Ilmselt pole see kavandatud käitumine. Vaatame, kuidas seda parandada.

3. Alamkomplekti kasutamine

Varasemad toimingud langesid kõigi veergude põhjal, kui telg = 0. Kuna seal on veerg Asutaja, millel on ainult nullväärtused, visatakse kõik read maha. Täpsustame filtreerimiseks kasutatava veeru:

Kood:

In (7): df.dropna(axis=0, subset=('NetWorth ($ bn)'))

Väljund:

Out(7):
Company Age NetWorth ($ bn) Founder Headquarter-Country
0 Google 21 300.0 NaN United States
3 Directi 22 1.3 NaN India

Nagu näeme, kaotatakse nüüd ainult Networthi veerus olevad Nanvalue'iga kirjed. Tagastatud DataFrame'i saab uuesti muuta, rakendades veelkord dropna (), et filtreerida veerud läbi telje = 1.

4. Kuidas kasutada parameetrit

Vaikimisi kukutab dropna () kogu rea / veeru, isegi kui ainult 1 väärtus puudub. Kiirelt paljastatud külg langeb ainult siis, kui kõik rea / veeru väärtused on nullid. See saavutatakse määrates kuidas = 'kõik', selle asemel, et = 'kõik' (vaikekäitumine).

Kood:

In (8): df.dropna(axis=1, how='all')

Väljund:

Out(8):
Company Age NetWorth ($ bn) Headquarter-Country
0 Google 21 300.0 United States
1 Amazon 23 NaN NaN
2 Infosys 38 NaN India
3 Directi 22 1.3 India

Nüüd saab saadud DataFrame'i kasutada vajadusel keerukama loogikaga ridade / veergude langetamiseks.

5. Juhtimise hankimine läbi Threes

Threes-parameeter on tõenäoliselt kõige võimsam tööriist, kui seda õigesti teistega kombineerida.

Kood:

In (17): df.dropna(axis=1, thresh=2)

Väljund:

Out(17):
Company Age NetWorth ($ bn) Headquarter-Country
0 Google 21 300.0 United States
1 Amazon 23 NaN NaN
2 Infosys 38 NaN India
3 Directi 22 1.3 India

Seades telje = 1 ja künnise = 2, säilitatakse ainult need veerud, millel on vähemalt 2 mitte-NaN-i väärtust.

Järeldus

Ülaltoodud näited on olemuselt lihtsustatud, kuid samas piisavalt võimsad, et käsitleda enamikku probleemidest, millele võite reaalses olukorras komistada. Sellegipoolest tuleks harjutada erinevate parameetrite kombineerimist, et saada kristallselge arusaam nende kasutamisest ja nende rakenduse kiirusest.

Soovitatavad artiklid

See on juhend Pandas.Dropna () -le. Siin arutame, mis on Pandas.Dropna (), parameetrid ja näited. Lisateavet leiate ka meie muudest seotud artiklitest -

  1. Mis on Pandas
  2. NLP Pythonis
  3. Abstraktne klass Pythonis
  4. Faktuur Pythonis
  5. Faktoriprogramm JavaScriptis

Kategooria: