Erinevused teksti kaevandamise ja tekstianalüüsi vahel

Struktureeritud andmeid on seal olnud alates 1900. aastate algusest, kuid mis tegi teksti kaevandamise ja tekstianalüütika nii eriliseks, on see, et teabe võimendamine struktureerimata andmetest (loomulik keele töötlemine). Kui suudame selle struktureerimata teksti teisendada poolstruktureeritud või struktureeritud andmeteks, on see saadaval kõigi andmete kaevandamise algoritmide jaoks. Statistilised ja masinõppe algoritmid.

Isegi Donald Trump suutis andmeid kasutada ja teisendada selliseks teabeks, mis aitas tal võita USA presidendivalimised, põhimõtteliselt ei teinud ta seda seda, mida tema alluvad tegid. Seal on väga hea artikkel http://fivethirtyeight.com/features/the-real-story-of-2016/, kus saate selle läbi vaadata.

Paljud ettevõtted on hakanud kasutama teksti kaevandamist, et kasutada seal saadaolevast tekstist väärtuslikke sisendeid, näiteks saab tootepõhine ettevõte kasutada twitteri andmeid / Facebooki andmeid, et teada saada, kui hästi või halvasti nende toode maailmas tegutseb, kasutades Sentimentalit Analüüs. Esimestel päevadel võttis töötlemine palju aega, päevi tegelikult masinõppe algoritmide töötlemiseks või isegi rakendamiseks, kuid selliste tööriistade kasutuselevõtuga nagu Hadoop, Azure, KNIME ja muud suured andmetöötlustarkvara teksti kaevandamine on turul tohutult populaarsust kogunud. Üks parimatest näidetest tekstianalüütika kohta, kus kasutatakse assotsieerunud kaevandamist, on Amazoni soovitusmootor, kus see annab oma klientidele automaatselt soovitusi, mida muud inimesed mõne konkreetse toote ostmisel ostsid.

Üks suurimaid väljakutseid teksti kaevandamise tööriistade rakendamisel millelegi, mis pole digitaalses vormingus / arvutis, on selle valmistamise protsess. Vanu arhiive ja paljusid olulisi dokumente, mis on saadaval ainult paberkandjal, loetakse mõnikord läbi OCR (Optical Character Recognition), milles on palju vigu ja mõnikord sisestatakse andmed käsitsi, mis on inimlikele vigadele kalduv. Põhjus, miks me seda soovime, on see, et võime saada muid teadmisi, mis pole tavapärasest lugemisest nähtavad.

Mõned teksti kaevandamise sammud on järgmised

  • Teabe otsimine
  • Andmete ettevalmistamine ja puhastamine
  • Segmenteerimine
  • Tokeniseerimine
  • Stopp-sõnade numbrite ja kirjavahemärkide eemaldamine
  • Stemming
  • Teisendamine väiketähtedeks
  • POS-i sildistamine
  • Loo tekstikorpus
  • Term-Document maatriks

Ja allpool on tekstianalüüsi etapid, mida rakendatakse pärast tähtajalise dokumendi maatriksi ettevalmistamist

  • Modelleerimine (see võib hõlmata järeldavaid mudeleid, ennustavaid mudeleid või ettekirjutatavaid mudeleid)
  • Koolitus ja mudelite hindamine
  • Nende mudelite rakendamine
  • Mudelite visualiseerimine

Ainus, mida tuleb alati meeles pidada, on see, et teksti kaevandamine eelneb alati tekstianalüütikale.

Võrdlus teksti kaevandamise ja tekstianalüüsi vahel (infograafika)

Allpool on 5 eeldatava teksti kaevandamise ja tekstianalüüsi võrdlust

Peamised erinevused teksti kaevandamise ja tekstianalüüsi vahel

Eristame teksti kaevandamist ja tekstianalüütikat sammude põhjal, mis osalevad vähestes rakendustes, kus rakendatakse mõlemat teksti kaevandamist ja teksti analüütikat:

• dokumentide klassifikatsioon
Selles etapis hõlmavad teksti kaevandamine märgistamist, tüve tegemist ja lemmatiseerimist, märksõnade ja kirjavahemärkide eemaldamist ning termini sagedusmaatriksi või dokumendi sagedusmaatriksite arvutamist.

Tokeniseerimine - kogu andmete (korpuse) tükeldamine väiksemateks tükkideks või väiksemateks sõnadeks, tavaliselt üksikuteks sõnadeks, on tokeniseerimine (N-grammine mudel või sõnade mudel)

Tüveldus ja Lemmatiseerimine - näiteks sõnad suured, suuremad ja suuremad tähendavad ühtemoodi ja moodustavad dubleerivad andmed. Andmete ülearuse hoidmiseks teeme Lemmatiseeringu, sidudes sõnad juursõnaga.
Peatussõnade eemaldamine - stoppsõnu ei kasutata analüüsis, mis hõlmab sõnu nagu on, ja jne.

Termini sagedused - see on maatriks, mille rea päised on dokumentide nimedena ja veergudena terminid (sõnad) ning andmed on nendes dokumentides esinevate sõnade sagedus. Allpool on ekraanipilt.

Ülaltoodud joonisel on meil atribuudid ridades (sõnad) ja dokumendi number veergudena ning sõna sagedus andmetena.

Tekstianalüütika juurde jõudes on meil järgmised sammud, mida tuleb kaaluda

Klasterdamine - K-vahendite abil rühmitamise / närvivõrkude / CART-i (klassifitseerimis- ja regressioonipuud) või mõne muu rühmitusalgoritmi abil saame dokumendid klastrida loodud funktsioonide alusel (funktsioonid on siin sõnad).

Hindamine ja visualiseerimine - joonistame klastri kaheks mõõtmeks ja uurime, kuidas need klastrid üksteisest erinevad. Kui mudel hoiab hästi katseandmeid, saame selle tootmises kasutusele võtta ja see on hea dokumentide klassifikaator, mis klassifitseerib kõik uued dokumendid, mis antakse sisendina ja see lihtsalt nimetaks klastrit, kuhu see kuulub.

• Sentimentide analüüs

Üks võimsamaid tööriistu turul, mis aitab töödelda twitteri andmeid / Facebooki andmeid või mis tahes muid andmeid, mida saab kasutada sellest tuletatud meelsuse saamiseks, kas sentiment on mõne konkreetse protsessi / toote suhtes hea, halb või neutraalne või inimene on sentimentide analüüs.
Andmete allikas on hõlpsasti kättesaadav, kasutades twitter API / Facebooki API-sid, et saada tviidilt või ettevõtte postituselt säutsu / kommentaare / meeldimisi jne. Suurim probleem on see, et neid andmeid on raske struktureerida. Andmed sisaldaks ka mitmesuguseid reklaame ja ettevõtte heaks töötav andmeteadlane peab veenduma, et andmete valimine toimub õigesti, et eeltöötlusetappideks läheks läbi ainult valitud säutsu / postitus.
Muude tööriistade hulka kuulub veebikraapimine, see on osa teksti kaevandamisest, kus indekseerite veebisaitide andmeid indekseerijate abil.
Teksti kaevandamise protsess jääb samaks nagu tokeniseerimine, tüvitamine ja lemmatiseerimine, eemaldades stopp-märksõnad ja kirjavahemärgid ning lõpuks arvutades termini sagedusmaatriks või dokumendi sageduse maatriksid, kuid ainus erinevus tuleb sentimentaalianalüüsi rakendamisel.
Tavaliselt anname hinde igale postitusele / säutsule. Tavaliselt, kui ostate toote ja arvustuse, antakse teile ka võimalus anda arvustusele tärni ja lisada kommentaar. Google, Amazon ja muud veebisaidid kasutavad kommentaari hindamiseks tähti, mitte ainult seda, et nad võtaksid ka säutsu / postitusi ja annaksid neile inimestele hinnangu heaks / halvaks / neutraalseks ning nende kahe hinde kammimisel loovad nad uue skoorige kindlale säutsule / postitusele.
Sentimentaalianalüüsi saab visualiseerida sõnapilve, sagedustermini maatriksi tulpdiagrammide abil.

• Mäetööstuse analüüsi ühendus

Üks rakendusi, mille kallal mõned poisid töötasid, oli „Ebasoodsate ravimite esinemise tõenäosusmudel”, kus saab kontrollida, millised kõrvaltoimed võivad mõne muu ravimi võtmisel põhjustada muid kõrvaltoimeid.
Teksti kaevandamine hõlmas allpool toodud töövoogu

Ülaltoodud jooniselt näeme, et kuni andmete kaevandamiseni kuuluvad kõik etapid teksti kaevandamisse, mis tuvastab andmete allikad, eraldab need ja seejärel valmistab need analüüsimiseks valmis.

Seejärel rakendades assotsieerunud kaevandamist, on meil allpool toodud mudel
Nagu näeme, et mõned noolejäljed osutavad oranži ringi suunas ja siis üks nool osutab ühele konkreetsele ADE-le (ebasoodne uimastijuhtum). Kui võtame näite pildi vasakpoolsest vasakpoolsest küljest, võime leida apaatiat, asteeniat ja ebanormaalne tunne viib süütundeni, siis võib öelda, et see on ilmne, see on ilmne, sest inimesena saate tõlgendada ja seostada, kuid siin on masin tõlgendab seda ja annab meile järgmise uimastisündmuse.

Sõnapilve näide on järgmine

Tekstikaevandamise ja tekstianalüüsi võrdlustabel

Allpool on punktide loendid, kirjeldage võrdlusi teksti kaevandamise ja tekstianalüüsi vahel:

Võrdluse alusTeksti kaevandamineTekstianalüüs

Tähendus

Teksti kaevandamine on põhimõtteliselt andmete analüüsi jaoks kättesaadavate andmete puhastamineTekstianalüüs rakendab statistilisi ja masinõppe tehnikaid, et oleks võimalik ennustada / ette kirjutada või järeldada tekstihalduslikest andmetest mingit teavet.

Kontseptsioon

Teksti kaevandamine on tööriist, mis aitab andmeid puhastada.Tekstianalüüs on algoritmide rakendamise protsess

Raamistik

Kui me räägime raamistikust, siis on teksti kaevandamine sarnane ETL-ga (Extract Transform Load), mis tähendab, et andmete sisestamiseks andmebaasi tuleb need toimingud läbi viiaTekstisisese analüüsi korral kasutatakse neid andmeid ettevõttele väärtuste lisamiseks, näiteks sõnapilvede loomiseks, kahe grammi sageduse graafikuteks, mõnel juhul N-grammi loomiseks

Keel

Python ja R on seal kõige kuulsamad teksti kaevandamise tööriistadTekstianalüüsi jaoks, kui andmed on andmebaasi tasemel kättesaadavad, võime kasutada mõnda seal olevat analüütikatarkvara, sealhulgas python ja R. Muude tarkvarade hulka kuuluvad Power BI, Azure, KNIME jne.

Näited

  • teksti kategoriseerimine
  • teksti klasterdamine
  • kontseptsiooni / olemi ekstraheerimine
  • sentimentide analüüs
  • dokumentide kokkuvõte
  • granuleeritud taksonoomiate tootmine
  • Olemite suhete modelleerimine
  • Assotsiatsiooni analüüs
  • visualiseerimine
  • ennustav analüüs
  • teabe otsimine
  • leksikaalne analüüs
  • mustri äratundmine
  • sildistamine / märkimine

Järeldus - teksti kaevandamine vs tekstianalüüs

Teksti kaevandamise ja tekstianalüütika tulevik ei kehti mitte ainult inglise keeles, vaid on tehtud ka pidevaid edusamme ja keeleliste tööriistade kasutamisel ei arvestata analüüsimisel liiga palju ka teisi inglise keeli.

Teksti kaevandamise ulatus ja tulevik kasvab, kuna muude keelte analüüsimiseks on piiratud ressursid.

Tekstianalüüsil on selle rakendamiseks väga lai valik, näiteks on mõned näited tööstustest, kus seda saab kasutada:

  • Sotsiaalmeedia jälgimine
  • Farmaatsia / biotehnoloogia rakendused
  • Äri- ja turundusrakendused

Soovitatav artikkel

See on olnud juhis erinevuste vahel teksti kaevandamise ja tekstianalüüsi vahel, nende tähendus, võrdlus pea vahel, peamised erinevused, võrdlustabel ja järeldus. Lisateabe saamiseks võite vaadata ka järgmisi artikleid -

  1. Azure Paas vs Iaas - uuri erinevusi
  2. 3 parimat asja, mida õppida andmete otsimise ja teksti kaevandamise kohta
  3. Teage parimat 7 erinevust andmete kaevandamise ja andmete analüüsi vahel
  4. Äriteave vs masinõpe - kumb on parem
  5. Ennustav analüüs vs andmete kaevandamine - milline neist on kasulikum

Kategooria: