Spark DataFrame - DataFrame'i erinevad toimingud näitega

Sissejuhatus Spark DataFrame'i

Sädemete andmeraami võib pidada hajutatud andmekogumiks, mis on jaotatud nimetatud veergudeks ja mida kasutatakse ka selliste toimingute jaoks nagu filtreerimine, liitmiste arvutamine, grupeerimine ja mida saab kasutada ka Spark SQL-iga. Andmeraamid saab luua struktureeritud andmefailide abil koos olemasolevate RDD-de, väliste andmebaaside ja tarude tabelitega. Põhimõtteliselt nimetatakse seda abstraktsioonikihiks, mis on üles ehitatud RDD-le ja millele järgneb ka andmekogu API, mis võeti kasutusele Sparki hilisemates versioonides (2.0 +). Pealegi ei tutvustatud andmekogumeid Pysparkis, vaid ainult Scalas koos Sparkiga, kuid Dataframeside puhul see nii ei olnud. Andmeraamid, mida rahvapäraselt nimetatakse DF-ideks, on loogilised sambakujulised vormingud, mis muudavad RDD-dega töötamise lihtsamaks ja mugavamaks, kasutades samal viisil RDD-dega samu funktsioone. Kui räägite rohkem kontseptuaalsel tasemel, on see samaväärne relatsioonitabelitega koos heade optimeerimisfunktsioonide ja tehnikatega.

Kuidas luua DataFrame?

Andmeraam luuakse üldiselt ükskõik millise nimetatud meetodi abil. Selle saab luua tarude tabeleid, väliseid andmebaase, struktureeritud andmefaile kasutades või isegi olemasolevate RDDde korral. Kõigil viisidel saab luua nimetatud nimega veerud, mida nimetatakse andmekaadriteks ja mida kasutatakse Apache Sparki töötlemiseks. Kasutades SQLContext või SparkSession, saab andmeraamide loomiseks kasutada rakendusi.

Spark DataFrames'i toimingud

Sparkis on andmeraam organiseeritud vormingus andmete jaotamine ja kogumine nimetatud veergudesse, mis on võrdne relatsiooniandmebaasi või skeemi või andmeraadiga keeles, näiteks R või python, kuid koos rikkama optimeerimistasemega kasutada. Seda kasutatakse selleks, et pakkuda konkreetset tüüpi keelt, mida saaks kasutada andmete struktureeritud manipuleerimiseks.

Allpool on toodud mõned struktureeritud andmetöötluse põhifunktsioonid, kasutades andmekaadreid.

1. Dokumendi lugemine, mis on tüüpi: JSON: Me kasutaksime käsku sqlContext.read.json.

Näide: Oletame, et meie failinimi on student.json, siis näeb meie kooditükk välja järgmine:
val dfs= sqlContext.read.json(“student.json”)

Väljund: sellisel juhul antakse väljund, et väljade nimed võetakse automaatselt failist student.json.

2. Andmete kuvamine: Sparki andmeraamides olevate andmete nägemiseks peate kasutama käsku:
dfs.show ()

Näide: Oletame, et meie failinimi on student.json, siis näeb meie kooditükk välja järgmine:
val dfs= sqlContext.read.json(“student.json”) dfs.show()

Väljund: õpilaste andmed esitatakse teile tabelina.

3. PrintSchema meetodi kasutamine: Kui olete huvitatud andmestruktuuri st skeemi nägemisest, siis kasutage järgmist käsku: dfs.printSchema ()

Näide: Oletame, et meie failinimi on student.json, siis näeb meie kooditükk välja järgmine:

val dfs= sqlContext.read.json(“student.json”) dfs. printSchema ()

Väljund: struktuur või skeem on teile kohal

4. Kasutage valitud meetodit: Valimismeetodi kasutamiseks kasutatakse nimesid ja veerge andmeraamide loendist allalaadimiseks järgmist käsku.
dfs.select (“veeru nimi”). show ()

Näide: Oletame, et meie failinimi on student.json, siis näeb meie kooditükk välja järgmine:
val dfs= sqlContext.read.json(“student.json”) dfs.select(“name”).show()

Väljund: nimesamba väärtused on näha.

5. Vanusefiltri kasutamine: järgmist käsku saab kasutada õpilaste ringi leidmiseks, kelle vanus on üle 23 aasta.
dfs.filter (dfs (“veeru nimi”)> väärtus) .show ()

Näide: Oletame, et meie failinimi on student.json, siis näeb meie kooditükk välja järgmine:
val dfs= sqlContext.read.json(“student.json”) dfs.filter(dfs(“age”)>23).show()

Väljund: üle 23-aastane filtreeritud vanus kuvatakse tulemustes.

6. GroupBy meetodi kasutamine: Sama vanuseastmega õpilaste arvu loendamiseks võib kasutada järgmist meetodit.
dfs.groupBy (“veeru nimi”). count (). show ()

Näide: Oletame, et meie failinimi on student.json, siis näeb meie kooditükk välja järgmine:
val dfs= sqlContext.read.json(“student.json”) dfs.groupBy(“age”).count().show()

7. SQL-i funktsiooni kasutamine SparkSessionil, mis võimaldab rakendusel täita SQL-i tüüpi päringuid programmiliselt ja annab tulemuse andmeraami kujul.
spark.sql (päring)

Näide: Oletame, et peame SQL-i andmeraami tempovaatena registreerima, siis:
df.createOrReplaceTempView(“student”) sqlDF=spark.sql(“select * from student”) sqlDF.show()

Väljund: ajutine vaade luuakse õpilase nimega ja selle peale rakendatakse spark.sql, et see andmeraamiks teisendada.

8. SQL-i funktsiooni kasutamine ajutises ülevaates Spark Sessionil: See võimaldab rakendusel täita SQL-i tüüpi päringuid programmiliselt ja annab tulemuse andmeraami kujul.
spark.sql (päring)

Näide: Oletame, et peame SQL-i andmeraami tempovaatena registreerima, siis:
df.createGlobalTempView(“student”) park.sql(“select * from global_temp.student”).show() spark.newSession().sql(“Select * from global_temp.student”).show()

Väljund: ajutine vaade luuakse õpilase nimega ja selle peale rakendatakse spark.sql, et see andmeraamiks teisendada.

Spark DataFrame eelised

Andmeraam on andmete hajutatud kogu ja seetõttu on andmed korraldatud nimetatud veergude kaupa.
Need on relatsiooniandmebaaside puhul enam-vähem sarnased tabeliga ja nende optimeerimise rikas komplekt on rikas.
Andmekaadreid kasutatakse SQL-is kirjutatud päringute ja ka andmeraami API-vormistamiseks
Seda saab kasutada nii struktureeritud kui ka struktureerimata andmete töötlemiseks.
Katalüsaatori optimeerija kasutamine muudab optimeerimise lihtsaks ja tõhusaks.
Raamatukogud esinevad paljudes keeltes, näiteks Python, Scala, Java ja R.
Seda kasutatakse taruga tugeva ühilduvuse tagamiseks ja modifitseerimata tarude päringute käitamiseks juba olemasolevas tarulaos.
See saab skaleerida väga hästi - alates isikliku süsteemi mõnest kilost kuni suurtesse klastritesse paljude petabaitideni.
Seda kasutatakse hõlpsaks integreerimiseks muude suurandmete tehnoloogiate ja raamistikega.
Abstraktsioon, mida nad RDD-dele pakuvad, on tõhus ja muudab töötlemise kiiremaks.

Järeldus - Spark DataFrame

Selles postituses olete õppinud väga olulist Apache Sparki funktsiooni, milleks on andmeraamid ja nende kasutamine täna töötavates rakendustes koos toimingute ja eelistega. Loodan, et teile meeldis meie artikkel. Olge rohkem sarnased.

Soovitatavad artiklid

See on Spark DataFrame'i juhend. Siin arutame, kuidas luua DataFrame? selle eelised ja DataFramesi erinevad toimingud koos sobiva näidiskoodiga. Lisateavet leiate ka meie muudest soovitatud artiklitest -