Mis on andmeanalüüs - Eri tüüpi andmeanalüüs

Lang L: none (table-of-contents):

Anonim

Mis on andmeanalüüs?

Andmeanalüüs on protsess, mille käigus avastatakse peamistest teadmistest ja väärtuslikest järeldustest mitmesugustest allikatest otsustamise toetamiseks kogutud või kogutud massiline hulk andmeid. Suurenenud arvutusvõimsus, suur töötlemiskiirus. Interaktiivsete lõppkasutajate liideste tulek ja hajutatud arvutusliku paradigma tõestatud tõhusus suurte andmemahtude käsitlemiseks muutis andmeanalüütika edasiliikumiseks kõigis domeenides, silmapaistvalt jaekaubanduses, panganduses, tervishoius, logistikas, kaitses, avalikus halduses jne.

Andmeanalüüsi tüübid

Andmeanalüüsi protsess jaguneb subjektiivselt kolme tüüpi andmete analüüsi eesmärgi alusel

  • Kirjeldav analüüs
  • Ennustav analüüs
  • Prescriptive Analytics

Ülaltoodud Analyticsi tüüpide funktsioone kirjeldatakse allpool:

1. Kirjeldav analüüs

Kirjeldav analüüs keskendub varasemate andmete kokkuvõtmisele järelduste saamiseks. Ajaloolise andmejaotuse kvantitatiivseks iseloomustamiseks kasutatakse kõige sagedamini järgmisi näitajaid:

  • Keskmise tendentsuse mõõtmed - keskmine, mediaan, nelinurgad, režiim.
  • Varieeruvuse või hajuvuse mõõtmed - vahemik, kvartiilidevaheline vahemik, protsentiilid.

Viimasel ajal on statistiliste järelduste abil lahendatud massiliste andmehunnikute kogumise, talletamise ja mõistmise raskused ja piirangud. Üldistatud järeldused rahvastiku andmestiku statistika kohta tuletatakse, kasutades valimimeetodeid koos tsentraalse piirava teooria rakendamisega.

Juhtiv uudiste ringhäälinguorganisatsioon kogub valimispäeval valimisjaoskonna väljapääsu juhuslikult valitud valijate hääletuse üksikasjad, et saada statistilisi järeldusi kogu elanikkonna eelistuste kohta.

Populatsiooni andmekogumi korduval proovivõtmisel saadakse piisavalt suure valimi suurused proovid. Rahvastiku andmestiku hästi kihistunud ja erapooletute esindajate genereerimiseks eelistatakse üldiselt rühmitatud valimit. Huvipakkuv statistiline mõõt arvutatakse valimisse võetud andmepakkide põhjal, et saada valimi statistiliste väärtuste jaotus, mida nimetatakse valimi jaotuseks. Valimi jaotuse omadused on seotud tsentraalse piirava teooriaga populatsiooni andmestiku omadustega.

2. Ennustav analüüs

Ennustav Analytics kasutab ajalooliste või varasemate andmete mudeleid, et hinnata tulevasi tulemusi, tuvastada suundumusi, avastada võimalikke riske ja võimalusi või prognoosida protsessikäitumist. Kuna ennustamise kasutamise juhtumid on oma olemuselt usutavad, kasutavad need lähenemisviisid tõenäosusmudeleid kõigi võimalike tulemuste tõenäosuse mõõtmiseks.

Finantsettevõtte klienditeeninduse portaalis chatBot saab aktiivselt teada klientide kavatsus või vajadus lähtuda tema varasemast tegevusest selle veebidomeenis. Prognoositavas kontekstis vestleb chatBot interaktiivselt kliendiga, et pakkuda kiireid teenuseid ja saavutada parem kliendirahulolu.

Lisaks ekstrapoleerimisstsenaariumidele, mis võimaldavad ennustada tulevikus toimuvat olemasolevate andmete põhjal, on vähe rakendusi, mis arvavad saadaolevate andmeproovide abil ära vastamata andmete sisestamise. Seda vastavate vastavate väärtuste lähendamist antud andmeproovide vahemikus nimetatakse tehniliselt interpolatsiooniks.

Võimas pildiredaktorirakendus toetab teksti pealesurutud tekstuuri vastavate osade rekonstrueerimist, funktsiooni interpoleerimisega vastamata plokis. Funktsioonifunktsiooni saab tõlgendada moonutatud pildi tekstuuri mustrite matemaatilise märkena.

Ennustavate mudelite / strateegiate valikut mõjutavad järgmised olulised tegurid:

  • Prognoosimise täpsus: see annab eeldatava väärtuse ja tegeliku väärtuse vahelise sarnasuse. Prognoositava väärtuse ja tegeliku väärtuse erinevuse väiksem dispersioon tähendab suuremat ennustatava mudeli täpsust.
  • Ennustuste kiirus: see on reaalajas jälgimisrakendustes tähtsal kohal
  • Mudeli õppimiskiirus: see sõltub mudeli keerukusest ja mudeli parameetrite arvutamisel kasutatavatest arvutustest.

3. Prescriptive Analytics

Prescriptive Analytics kasutab nii kirjeldava kui ka ennustava analüüsi osana avastatud teadmisi, et soovitada konteksti teadvustavat toimimisviisi. Hinnanguliste ennustuste jaotuse mõistmiseks rakendatakse täiustatud statistilisi tehnikaid ja arvutusmahukaid optimeerimismeetodeid.

Ennustava analüüsi käigus hinnatakse iga tulemuse mõju ja kasu täpsetel tingimustel, et teha antud tingimuste jaoks heuristilisi ja ajatundlikke otsuseid.

Aktsiaturu nõustamisettevõte viib läbi SWOT (tugevuse, nõrkuse, võimaluste ja ohu) analüüsi investorite portfellis olevate aktsiate prognoositavate hindade kohta ja soovitab oma klientidele parimaid ostu-müügi võimalusi.

Protsesside voog andmeanalüüsis

Andmeanalüüsi protsessil on andmetöötluse erinevad etapid, nagu allpool selgitatakse:

1. Andmete ekstraheerimine

Andmete sissevõtmine mitut tüüpi eri andmeallikatest, sealhulgas veebilehtedelt, andmebaasidest, pärandrakendustest, annab tulemuseks eri vormingus sisestuskomplektid. Andmeanalüüsi voogu sisestatud andmevorminguid saab üldjoontes klassifitseerida järgmisteks

  • Struktureeritud andmetel on andmetüüpide selge määratlus koos sellega seotud välja pikkuse või väljade eraldajatega. Seda tüüpi andmeid saab hõlpsalt küsida, näiteks relatsiooniandmebaasi (RDBMS) salvestatud sisu kohta.
  • Poolstruktureeritud andmetel puudub täpne paigutuse määratlus, kuid andmeelemente saab standardse skeemi või muude metaandmereeglite alusel tuvastada, eraldada ja grupeerida. XML-fail kasutab andmete hoidmiseks sildistamist, samas kui Javascripti objektide märkimisfail (JSON) hoiab andmeid nimiväärtuse paarides. NoSQL (mitte ainult SQL) andmebaasid nagu MongoDB, vaid ka poolstruktureeritud andmete salvestamiseks kasutatakse diivanbaasi.
  • Struktureerimata andmed hõlmavad sotsiaalmeedia vestlusi, pilte, heliklippe jne. Traditsioonilised andmete parsimismeetodid ei mõista neid andmeid. Struktureerimata andmeid hoitakse andmejärvedes.

Andmete parsimise rakendamine struktureeritud ja poolstruktureeritud andmete jaoks on integreeritud erinevatesse ETL-i tööriistadesse, näiteks Ab Initio, Informatica, Datastage ja avatud lähtekoodiga alternatiividesse nagu Talend.

2. Andmete puhastamine ja muutmine

Sõelutud andmeid puhastatakse selleks, et tagada andmete järjepidevus ja asjakohaste andmete kättesaadavus protsessi voo järgmistes etappides. Andmeanalüütika peamised puhastustoimingud on järgmised:

  • Kõrvaltoimete tuvastamine ja kõrvaldamine andmemahtudes
  • Duplikaatide eemaldamine andmekogumist
  • Andmekirjetes puuduvate kirjete käsitlemine funktsionaalsuse või kasutusjuhtude mõistmisega
  • Andmekirjetes (nt “31. veebruar”) lubatud väljade väärtuste kinnitused ei saa üheski kuupäevaväljas kehtida.

Puhastatud andmed muudetakse andmete analüüsimiseks sobivaks vorminguks. Andmete teisendused hõlmavad

  • Soovimatute andmete kirjete filter.
  • Erinevatest allikatest hangitud andmete liitumine.
  • Andmete liitmine või grupeerimine
  • Andmete tüpvaatlus

3. KPI / ülevaate tuletamine

Andmekaevandamist ja süvaõppe meetodeid kasutatakse tulemuslikkuse põhinäitajate (KPI) hindamiseks või puhastatud ja muundatud andmetest väärtuslike teadmiste saamiseks. Lähtudes analüütika eesmärgist, viiakse andmete analüüsimisel läbi erinevad mustrituvastusmeetodid, näiteks k-vahendite rühmitamine, SVM klassifikatsioon, Bayesi klassifikaatorid jne. Ja masinõppe mudelid, nagu Markovi mudelid, Gaussi segu mudelid (GMM) jne.

Treeningfaasis olevad tõenäosuslikud mudelid õpivad optimaalseid mudeli parameetreid ja valideerimise faasis testitakse mudelit k-kordse ristvalideerimise testi abil, et vältida liialt sobivate ja alakomplekteeritavate vigade tekkimist.

Andmete analüüsimisel kasutatakse kõige sagedamini programmeerimiskeelt R ja Python. Mõlemal on rikkalik raamatukogude komplekt (SciPy, NumPy, Pandas), mis on avatud lähtekoodiga keerukate andmete analüüsimiseks.

4. Andmete visualiseerimine

Andmete visualiseerimine on katmata mustrite, andmete põhjal saadud järelduste selge ja tõhusa esitamise protsess, kasutades graafikuid, graafikuid, armatuurlaudu ja graafikat.

  • Andmearuandluse tööriistad, näiteks QlikView, Tableau jne, kuvavad KPI-d ja muid tuletatud mõõdikuid erinevatel detailsusastmetel.
  • Aruandmistööriistad võimaldavad lõppkasutajatel luua kohandatud aruandeid pöörde- ja rippvalikute abil, kasutades kasutajasõbralikke lohistamisliideseid
  • Analüüsitud andmete uurimise võime suurendamiseks kasutatakse interaktiivseid andmete visualiseerimise teeke nagu D3.js (andmepõhised dokumendid), HTML5-suvalised diagrammid jne.

Soovitatavad artiklid

See on olnud teemaks Mis on andmeanalüüs. Siin arutasime erinevat tüüpi andmeanalüütikat koos protsessivooluga. Lisateabe saamiseks võite minna ka muudest soovitatud artiklitest -

  1. Andmeanalüütiku intervjuu küsimused ja vastused
  2. Mis on andmete visualiseerimine?
  3. Mis on suurandmete analüüs?
  4. Mis on Minitab?