Razvrstavanje u Data Mining

Klasifikacija je tehnika rudarenja podataka koja dodjeljuje kategorije zbirci podataka kako bi se omogućilo preciznije predviđanje i analizu. Nazvan također ponekad nazvan Tree odluke , klasifikacija je jedna od nekoliko metoda namijenjenih za analizu vrlo velikih skupova podataka.

Zašto razvrstavanje?

Vrlo velike baze podataka postaju norma u današnjem svijetu "velikih podataka". Zamislite bazu podataka s više terabajta podataka - terabajt je jedna trilijuna bajta podataka.

Samo Facebook svrstava 600 terabajta novih podataka svaki dan (od 2014., posljednji puta kada je objavio ove specifikacije). Primarni izazov velikih podataka jest kako to smisliti.

I običan volumen nije jedini problem: veliki podaci također imaju tendenciju da budu raznoliki, nestrukturirani i brzo se mijenjaju. Razmotrite audio i video podatke, postove društvenih medija, 3D podatke ili geoprostorne podatke. Ova vrsta podataka nije lako kategorizirana ili organizirana.

Kako bi se odgovorilo na ovaj izazov, razvijen je niz automatskih metoda za izdvajanje korisnih informacija, među njima klasifikacija .

Kako funkcionira klasifikacija

U opasnosti da se previše odmaknemo u tehnološkom govoru, razgovarajmo o tome kako funkcionira klasifikacija. Cilj je stvoriti skup pravila klasifikacije koji će odgovoriti na pitanje, donijeti odluku ili predvidjeti ponašanje. Za početak, razvijen je skup podataka o obuci koji sadrži određeni skup atributa kao i vjerojatan ishod.

Posao klasifikacijskog algoritma je otkriti kako taj skup atributa postiže svoj zaključak.

Scenarij : Možda tvrtka kreditne kartice pokušava utvrditi koji bi izgledi trebali primiti ponudu kreditne kartice.

To može biti njezin skup podataka o obuci:

Podaci o obuci
Ime Dob rod Godišnji prihod Ponuda kreditne kartice
John Doe 25 M $ 39.500 Ne
Jane Doe 56 F $ 125.000 Da

Stupci "prediktori" Dob , spol i godišnji prihod određuju vrijednost "predviđanja atributa" za kreditnu karticu . U skupu za vježbanje poznato je prediktorsko atribut. Algoritam razvrstavanja zatim pokušava utvrditi kako je postignuta vrijednost prediktorskog atributa: kakvi su odnosi između prediktora i odluke? Razvijat će skup pravila za predviđanje, obično IF / THEN izjavu, na primjer:

IF (dob 18 godina ili dob 75) I Godišnji prihod> 40 000 THEN ponuda kreditne kartice = da

Očito je ovo jednostavan primjer, a algoritam bi trebao mnogo veći uzorak podataka od onih dviju evidencija prikazanih ovdje. Nadalje, pravila predviđanja vjerojatno će biti daleko složenija, uključujući pod-pravila za hvatanje detalja atributa.

Dalje, algoritmu se daje "skup predviđanja" podataka za analizu, ali ovaj set nema predviđanja atributa (ili odluke):

Prediktorski podaci
Ime Dob rod Godišnji prihod Ponuda kreditne kartice
djed Mraz 42 M $ 88.000
Mary Murray 16 F $ 0

Ovi podaci prediktora pomažu u procjeni točnosti pravila predviđanja, a pravila se zatim ugađaju sve dok razvojni programeri ne smatraju da su predviđanja učinkovita i korisna.

Iz dana u dan primjeri klasifikacije

Razvrstavanje i druge tehnike rudarenja podataka, iza velikog dijela našeg svakodnevnog iskustva kao potrošača.

Vremenska prognoza može koristiti klasifikaciju kako bi izvijestila hoće li dan biti kišan, sunčan ili oblačno. Medicinska struka može analizirati zdravstvene uvjete za predviđanje medicinskih ishoda. Vrsta klasifikacijske metode, Naive Bayesian, koristi uvjetnu vjerojatnost za kategorizaciju neželjene e-pošte. Od otkrivanja prijevara do ponuda proizvoda, klasifikacija je iza scene svaki dan analizom podataka i proizvodnjom predviđanja.