Mis on andmete kaevandamise algoritm?

Andmete kaevandamise algoritm on uurimis- ja analüütiliste algoritmide kogum, mis aitab andmete mudeli loomisel. Konkreetse mudeli saamiseks peab algoritm esmalt analüüsima teie esitatud andmeid, milleks võib olla kindlat tüüpi mustrite või suundumuste leidmine. Selle algoritmi tulemuseks on erinevate iteratsioonide analüüs, mis võib aidata optimaalsete parameetrite leidmisel õige andmekaevandamise mudeli jaoks. Neid parameetrite komplekte saab rakendada kogu andmekogumi jaoks ja need aitavad välja võtta toimitavaid mustreid ja saada andmete üksikasjalikku statistikat.

Andmete kaevandamise peamised algoritmid

Vaatame peamisi andmekaevandamise algoritme:

1. C4.5 algoritm

Andmete kaevandamisel on tööriistad, mida klassifikaatorid kasutavad. Need süsteemid kasutavad sisendeid juhtumite kogumist, kus iga juhtum kuulub ühte väheste klasside arvu ja neid kirjeldatakse selle väärtuste abil fikseeritud atribuutide komplekti jaoks. Väljundi klassifikaator oskab täpselt ennustada, millisesse klassi ta kuulub. See kasutab otsustuspuid, kus esimene algpuu saadakse jagamise ja vallutamise algoritmi abil.

Oletame, et S on klass ja puu tähistatakse lehega, millel on kõige sagedamini esinev klass S-s. Kasutada võib testi, mis põhineb ühel atribuudil, millel on kaks või enam tulemust, kui selle testi muutmine root-haruks iga testi tulemuse jaoks. Partitsioonid vastavad alamhulkadele S1, S2 jne, mis on iga juhtumi väljundid. C4.5 võimaldab mitut tulemust. Keerukate otsustuspuude puhul on C4.5 võtnud kasutusele alternatiivse valemi, mis koosneb reeglite loendist, kus need reeglid on rühmitatud iga klassi jaoks. Juhtumi klassifitseerimiseks nimetatakse esimeseks klassiks, kelle tingimused on täidetud. Kui juhtum ei rahulda ühtegi reeglit, omistatakse sellele vaikeklass. C4.5 reeglistikud moodustatakse esialgse otsuse puust. C4.5 suurendab mastaapsust mitmekeermestamise teel.

2. k-tähendab algoritmi

See algoritm on lihtne meetod antud andmekogumi jaotamiseks kasutaja määratud klastritesse. See algoritm töötab d-mõõtmeliste vektorite korral, D = (xi | i = 1, … N) kus i on andmepunkt. Nende lähteandmete seemnete saamiseks tuleb andmete juhuslik valim. See seab lahenduse väiksema alamhulga andmete rühmitamiseks, globaalseks keskmiseks andmete k-korraks. Seda algoritmi saab siduda mõne muu algoritmiga, et kirjeldada kumeraid klastrid. See loob antud objektide komplektist k rühma. See uurib kogu klastrianalüüsiga kogu andmekogumit. Kui seda kasutatakse koos teiste algoritmidega, on see lihtne ja kiirem kui teised algoritmid. See algoritm liigitatakse enamasti pooljärelevalve alla. Lisaks klastrite arvu täpsustamisele õpib see ka ilma igasuguse teabeta. See jälgib klastrit ja õpib.

3. Naiivse Bayesi algoritm

See algoritm põhineb Bayesi teoreemil. Seda algoritmi kasutatakse peamiselt siis, kui sisendite mõõtmed on suured. See klassifikaator saab hõlpsalt arvutada järgmise võimaliku väljundi. Käivituse ajal saab lisada uusi töötlemata andmeid ja see pakub paremat tõenäosuslikku klassifikaatorit. Igal klassil on teadaolev vektorite komplekt, mille eesmärk on luua reegel, mis võimaldab objekte edaspidi klassidesse määrata. Muutujate vektorid kirjeldavad tulevasi objekte. See on üks lihtsamaid algoritme, kuna seda on lihtne konstrueerida ja sellel pole keerulisi parameetrite hindamisskeeme. Seda saab hõlpsalt rakendada ka tohutute andmekogumite korral. See ei vaja keerulisi iteratiivseid parameetrite hindamisskeeme ja seega saavad oskusteta kasutajad aru, miks klassifikatsioonid tehakse.

4. Toetage vektormasinate algoritmi

Kui kasutaja soovib kindlaid ja täpseid meetodeid, tuleb proovida Support Vectori masinate algoritmi. SVM-e kasutatakse peamiselt õppimise klassifitseerimiseks, regressiooniks või järjestamiseks. See on moodustatud struktuurse riski minimeerimise ja statistilise õppe teooria alusel. Otsuse piirid tuleb kindlaks teha, mida nimetatakse hüpertasandiks. See aitab klasside optimaalsel eraldamisel. SVM-i peamine ülesanne on tuvastada kahe klassi vahelise varu maksimeerimine. Varu defineeritakse kui ruumi suurus kahe klassi vahel. Hüpertasapinna funktsioon on nagu sirge võrrand, y = MX + b. SVM-i saab laiendada ka arvuliste arvutuste tegemiseks. SVM kasutab kernelit, et see toimiks hästi ka kõrgemates mõõtmetes. See on juhendatud algoritm ja andmekogumit kasutatakse selleks, et kõigepealt teavitada SVM-i kõigist klassidest. Kui see on tehtud, saab SVM neid uusi andmeid klassifitseerida.

5. Apriori algoritm

Sagedaste üksuste komplektide leidmiseks tehingu andmekogumist ja seostamisreeglite tuletamiseks kasutatakse laialdaselt Apriori algoritmi. Sagedaste esemekomplektide leidmine pole kombinatoorse plahvatuse tõttu keeruline. Kui oleme saanud sagedased üksuste komplektid, on selge, kas genereerida assotsieerimisreeglid suurema või võrdse kindlaksmääratud minimaalse usaldusvahemiku jaoks. Apriori on algoritm, mis aitab kandidaatide genereerimise abil leida sagedasi andmekogumeid. See eeldab, et esemekogum või olemasolevad esemed on järjestatud leksikograafilises järjekorras. Pärast Apriori kasutuselevõttu on andmekaevandamise uurimistööd eriti edendatud. See on lihtne ja hõlpsasti rakendatav. Selle algoritmi põhiline lähenemisviis on järgmine:

  • Liituge : kogu andmebaasi kasutatakse korduvate 1 ühikute komplektide jaoks.
  • Ploom : see üksuste komplekt peab vastama toetusele ja enesekindlusele, et liikuda järgmise 2 ringi jaoks kahele tootekomplektile.
  • Korda : seni, kuni eelmääratud suurust pole saavutatud, korratakse seda iga üksuse korral.

Järeldus

Viie algoritmi silmapaistva kasutamise korral on ka teisi, mis aitavad kaevandada andmeid ja õppida. See ühendab erinevaid tehnikaid, sealhulgas masinõpe, statistika, mustrituvastus, tehisintellekt ja andmebaasisüsteemid. Kõik need aitavad analüüsida suuri andmekogumeid ja täita erinevaid andmeanalüüsi ülesandeid. Seetõttu on need kõige kasulikumad ja usaldusväärsemad analüüsi algoritmid.

Soovitatavad artiklid

See on olnud andmekaevandamise algoritmide juhend. Siin arutasime põhimõisteid ja peamisi andmete kaevandamise algoritme. Lisateavet leiate ka meie muudest soovitatud artiklitest -

  1. Mis on tarkvara testimine?
  2. Otsustuspuu algoritm
  3. Mis on Java geneerika?
  4. Andmete kaevandamise arhitektuur
  5. Andmete kaevandamise rakendused
  6. Näited ja kuidas Generics töötab C #
  7. Eelised andmete kaevandamisel

Kategooria: