Razlika med nadzorovanim rudarjenjem podatkov in nenadzorovanim

Za pridobivanje znanja pri rudarjenju podatkov uporabljajo številne računske metode in algoritme. Razvrstitev je morda najosnovnejša oblika analize podatkov. Skupna naloga pri rudarjenju podatkov je preučiti podatke, kjer razvrstitev ni znana ali se bo pojavila v prihodnosti, s ciljem napovedati, kakšna bo ali bo ta razvrstitev. Podobno se podatki, pri katerih je klasifikacija znana, uporabljajo za razvoj pravil, ki se nato uporabijo za podatke, pri katerih klasifikacija ni znana. Ob tem so tehnike rudarjenja podatkov v dveh glavnih oblikah: nadzorovane in nenadzorovane. Nadzorovana je tehnika napovedovanja, medtem ko je nenadzorovana opisna tehnika. Čeprav se oba algoritma pogosto uporabljata za opravljanje različnih nalog rudarjenja podatkov, je pomembno razumeti razliko med njima.

Kaj je nadzorovano rudarjenje podatkov?

Nadzirano pridobivanje podatkov, kot že ime pove, se nanaša na učne algoritme, ki se uporabljajo pri klasifikaciji in napovedovanju. Nadzorovani algoritem se uči iz podatkov o usposabljanju, ki so označeni, nalogo pa nadzira inženir znanja in oblikovalec sistema. Z nadzorovanih podatkov, moramo imeti znane vhode, ki ustrezajo znanih rezultatov, kot jih določi domenskih strokovnjakov. Nalogo rudarjenja podatkov pogosto imenujemo nadzorovano učenje, ker se razredi določijo pred pregledom podatkov. Ta tehnika uporablja ciljno funkcijo (odvisna spremenljivka) in niz podatkovnih elementov, ki sta neodvisni spremenljivki. Nadzorovana tehnika poskuša prepoznati odnose med odvisnimi in neodvisnimi spremenljivkami, ugotoviti stopnjo korelacije za vsak niz spremenljivk in zgraditi model, ki prikazuje splet odvisnosti. Model se nato uporabi za podatke, za katere ciljna vrednost ni znana.

Kaj je nenadzorovano rudarjenje podatkov?

Za razliko od nadzorovane tehnike, nenadzorovano rudarjenje podatkov nima vnaprej določene ciljne funkcije, niti ne predvideva ciljne vrednosti. Nenadzorovane tehnike so tiste, pri katerih ni spremenljivke izida za napovedovanje ali razvrščanje. Zato se iz primerov, ko je takšna spremenljivka izida znana, ni ničesar naučiti. Algoritem od uporabnika zahteva, da določi število intervalov in/ali koliko podatkovnih točk mora biti vključenih v kateri koli interval. Pomaga vam pri prepoznavanju vseh vrst neznanih vzorcev v podatkih. Model brez nadzora se imenuje tudi opisni model, ker išče neznane vzorce v nizu podatkov brez vnaprej določenih oznak in brez ali z minimalnim človeškim nadzorom. Nenadzorovane učne metode vključujejo združevanje, združevanje in pridobivanje metod. Ta vrsta učne tehnike se uporablja, kadar poseben cilj ni na voljo ali kadar uporabnik poskuša najti skrite odnose v podatkih.

Razlika med nadzorom rudarjenja podatkov in nenadzorovanim

Podatki

- Nadzorovano učenje je naloga rudarjenja podatkov z uporabo algoritmov za razvoj modela na znanih vhodnih in izhodnih podatkih, kar pomeni, da se algoritem uči iz podatkov, ki so označeni za predvidevanje izida vhodnih podatkov. Nadzorovana tehnika se preprosto uči iz nabora podatkov o usposabljanju. Nenadzorovano učenje pa je tehnika uporabe algoritmov, kjer ni spremenljivke izida za napovedovanje ali razvrščanje, kar pomeni, da se ne naučimo iz primerov, ko je takšna spremenljivka izida znana.

Cilj

- Nadzirana tehnika poskuša identificirati priložnostne odnose med odvisnimi in neodvisnimi spremenljivkami, izolirati stopnjo korelacije za vsak niz spremenljivk in razviti model, ki prikazuje splet odvisnosti. Model se nato uporabi za podatke, za katere ciljna vrednost ni znana. Nenadzorovano učenje poskuša identificirati neznane vzorce v nizu podatkov brez vnaprej določenih oznak in brez ali z minimalnim človeškim nadzorom. Cilj tehnik nenadzorovanega rudarjenja podatkov je najti vzorce v naboru podatkov na podlagi odnosa med samimi podatkovnimi točkami.

Metoda

- Nadzorovani modeli so tisti, ki se uporabljajo pri razvrščanju in napovedovanju, zato se imenujejo napovedni modeli, ker se učijo iz podatkov o usposabljanju, ki so podatki, iz katerih se uči razvrstitev ali algoritem napovedovanja . Ko se algoritem nauči iz podatkov o usposabljanju, se nato uporabi za drug vzorec podatkov, kjer je rezultat znan. Metode vključujejo naslednje nadzorovane funkcije: klasifikacijo, regresijo in zaznavanje anomalij. Nenadzorovano rudarjenje podatkov vam pomaga identificirati vse vrste neznanih vzorcev v podatkih z uporabo metod, kot so združevanje v skupine, povezovanje in ekstrakcija.

Razširljivost

- Prilagodljivost je eno glavnih vprašanj pri rudarjenju velikih naborov podatkov in ni praktično razčleniti celotnega niza podatkov več kot enkrat. Nadzirano rudarjenje podatkov je ponavadi zelo razširljivo, kar pomeni, da lahko obdeluje velike količine podatkov v časovnih okvirih, ki se ne povečujejo nerazumno, in je na splošno hitro. Po drugi strani nenadzorovane učne metode pogosto odpirajo več vprašanj glede razširljivosti, če se ne uporablja nekakšno vzporedno vrednotenje, in za razliko od nadzorovanega učenja je sorazmerno počasno, vendar se lahko približa več različnim stanjem rešitev.

Nadzirano ali nenadzorovano rudarjenje podatkov: Primerjalna tabela

Povzetek

Na kratko, nadzorovano rudarjenje podatkov je tehnika napovedovanja, medtem ko je nenadzorovano rudarjenje podatkov opisna tehnika. Nadzirane tehnike se uporabljajo, ko je na voljo določen cilj in uporabnik poskuša ugotoviti, kako spremembe stanja podatkov vplivajo na rezultat. Nenadzorovano rudarjenje podatkov se po drugi strani začne s čistim skrilavcem, kar pomeni, da nima vnaprej določene ciljne funkcije in uporabnik poskuša v podatkih najti neznane vzorce ali skrite odnose. Cilj nenadzorovanega rudarjenja podatkov je najti vzorce v naboru podatkov na podlagi razmerja med samimi podatkovnimi točkami.

Poglej več o: ,