Sissejuhatus Python Pandas DataFrame'i

Internetis võib leida Pythoni raamatukogu Pandas mitu laiendamist. Üks selline on paneelide (pan) andmed (das). See sõna * paneel * viitab delikaatselt selles raamatukogus leiduvale kahemõõtmelisele andmestruktuurile, võimaldades selle kasutajatel tohutult jõudu. Seda struktuuri nimetatakse DataFrame'iks.

See on sisuliselt ridade ja veergude maatriks, mis sisaldab kogu teie andmestikku koos väga keerukate võimalustega seda indekseerida. DataFrame'i (DF) saab pildiliselt kujutleda väga sarnaselt exceli lehega. Kuid mis teeb selle võimsaks, on see, kui hõlpsalt saab DataFrame'i salvestatud andmete jaoks analüütilisi ja teisendavaid toiminguid teha.

Mis täpselt on Python Pandas DataFrame?

Pydata lehelt võib leida midagi ametlikku määratlust.

Kui see on õigesti mõistetud, mainib see DataFrame veergstruktuurina, mis on võimeline salvestama mis tahes pütoonobjekti (kaasa arvatud DataFrame ise) ühe lahtri väärtusena. (Lahter indekseeritakse unikaalse rea- ja veerukombinatsiooni abil)

DataFrames koosneb kolmest põhikomponendist: andmed, read ja veerud.

  • Andmed: see viitab DataFrame'i lahtrisse salvestatud tegelikele objektidele / üksustele ja väärtustele, mida need üksused esindavad. Objekt on mis tahes kehtiva pythoni andmetüübiga, olgu see siis sisseehitatud või kasutaja määratud.
  • Ridad: viiteid, mida kasutatakse DataFrame'i salvestatud täielike andmete konkreetse vaatluskomplekti tuvastamiseks (või indekseerimiseks), nimetatakse ridadeks. Ainult selguse huvides kujutab see kasutatud indekseid, mitte ainult konkreetse vaatluse andmeid.
  • Veerud: viited, mida kasutatakse kõigi DataFrame'i vaatluste komplekti atribuutide tuvastamiseks (või indekseerimiseks). Nagu ridade puhul, viitavad need veeru andmete asemel veeru indeksile (või veeru päistele).

Proovime siis ilma edasise abistamiseta mõnda viisi nende suurepäraselt võimsate struktuuride loomiseks.

Sammud Python Panda DataFramesi loomiseks

Python Panda DataFrame'i saab luua kasutades järgmist koodi rakendamist,

1. Impordi pandad

DataFramesi loomiseks tuleb pandade kogu importida (siin pole üllatust). Impordime selle varjunimega pd, et mugavalt mooduli all olevaid viiteobjekte kasutada.

Kood:

import pandas as pd

2. Esimese DataFrame'i objekti loomine

Kui teegi on imporditud, on kõik meetodid, funktsioonid ja konstruktorid teie tööruumis saadaval. Proovime siis luua vanilje DataFrame'i.

Kood:

import pandas as pd
df = pd.DataFrame()
print(df)

Väljund:

Nagu väljundis näidatud, tagastab konstruktor tühja DataFrame'i.
Keskendume nüüd DataFramesi loomisele andmetest, mis on salvestatud mõnesse tõenäolisse esindusse.

  • DataFrame sõnastikust: Oletame, et meil on sõnastik, mis sisaldab tarkvara domeenis olevate ettevõtete loetelu ja nende aktiivsete aastate arvu.

Kood:

import pandas as pd
df = pd.DataFrame(
('Company':('Google', 'Amazon', 'Infosys', 'Directi'),
'Age':('21', '23', '38', '22') ))
print (df)

Vaatame tagastatud DataFrame'i objekti esitust, printides selle konsoolile.

Väljund:

Nagu näha, töödeldakse sõnastiku kõiki võtmeid DataFrame'is veeruna ja reaindeksid genereeritakse automaatselt alates 0. Päris lihtne!

Ütleme nüüd, et soovisite sellele anda kohandatud indeksi, mitte 0, 1, 4. Peate lihtsalt edastama konstruktorile soovitud loendi parameetrina ja pandad teevad seda vajalikku.

Kood:

df = pd.DataFrame(
('Company':('Google', 'Amazon', 'Yahoo', 'Infosys', 'Directi'),
'Age':('21', '23', '24', '38', '22') ),
index=('Alpha', 'Beta', 'Gamma', 'Delta'))
print(df)

Väljund:

Ettevõtte vanus
Google'i alfaversioon 21
Beeta Amazon 23
Gamma Infosys 38
Delta Directi 22

Nüüd saate seada reaindeksid mis tahes soovitud väärtusele.

  • DataFrame CSV-failist: loome CSV-faili, mis sisaldab samu andmeid nagu meie sõnaraamatu puhul. Kutsume faili CompanyAge.csv

Google, 21
Amazon, 23
Infosys, 38
Directi, 22

Faili saab andmeraami laadida (eeldusel, et see on praeguses töökataloogis) järgmiselt.

Kood:

csv_df = pd.read_csv(
'CompanyAge.csv', names=('Company', 'Age'), header=None)
print(csv_df)

Väljund:

Ettevõtte vanus
0 Google 21
1 Amazon 23
2 Infosys 38
3 Directi 22

Parameetrite nimede määramisel ja väärtuste loendist mööda minnes omistatakse need veerupäistena samas järjekorras, nagu nad loendis esinevad. Sarnaselt saab reaindekseid seada, edastades loendi parameetrile, nagu eelmises jaotises näidatud. Päis = Puudub näitab andmefailis puuduvaid veerupäiseid.

Ütleme nüüd, et veergude nimed olid osa andmefailist. Seejärel päise seadmine = False teeb vajaliku töö.

3. CompanyAgeWithHeader.csv

Firma, vanus
Google, 21
Amazon, 23
Infosys, 38
Directi, 22

Kood muutub koodiks

csv_df = pd.read_csv(
'CompanyAgeWithHeader.csv', header=False)
print(csv_df)

Väljund:

Ettevõtte vanus
0 Google 21
1 Amazon 23
2 Infosys 38
3 Directi 22

  • DataFrame Exceli failist: sageli jagatakse andmeid exceli failides, kuna see on endiselt populaarseim tööriist, mida tavalised inimesed Adhoci jälgimiseks kasutavad. Seega ei tohiks seda meie arutelu eirata.

Oletame, et samad andmed, mis saidil CompanyAgeWithHeader.csv, on nüüd salvestatud saidil CompanyAgeWithHeader.xlsx, lehel nimega Company Age. Järgneva koodiga luuakse sama DataFrame nagu ülalpool.

Kood:

excel_df= pd.read_excel('CompanyAgeWithHeader.xlsx', sheet_name='CompanyAge')
print(excel_df)

Väljund:

Ettevõtte vanus
0 Google 21
1 Amazon 23
2 Infosys 38
3 Directi 22

Nagu näete, saab faili- ja lehe nime edastamisega luua sama DataFrame'i.

Edasine lugemine ja järgmised sammud

Näidatud meetodid moodustavad väga väikese alamhulga, võrreldes kõigi DataFrames'i loomise võimalustega. Need loodi eesmärgiga alustada sellega. Kindlasti peaksite uurima loetletud viiteid ja proovima uurida muid võimalusi, sealhulgas ühenduse loomist andmebaasiga, et lugeda andmeid otse DataFrame'ist.

Järeldus

Pandas DataFrame on osutunud andmeteaduse ja andmeanalüüsi maailmas mängude vahetajaks, samuti on see mugav ad-hoc lühiajaliste projektide jaoks. Kaasas armee tööriistu, mis on võimelised andmekogumit väga hõlpsalt tükeldama ja kuubikuteks lõigama. Loodetavasti on see hüppelauaks teie edasises teekonnas.

Soovitatavad artiklid

See on Python-Pandas DataFrame'i juhend. Siin käsitleme python-pandas andmeraami loomise samme koos selle koodi rakendamisega. Lisateabe saamiseks võite vaadata ka järgmisi artikleid -

  1. Pythoni 15 parimat funktsiooni
  2. Python-komplektide erinevad tüübid
  3. Pythoni 4 parimat muutujatüüpi
  4. Pythoni 6 parimat toimetajat
  5. Massiivid andmestruktuuris

Kategooria: