Što je k-znači klasteriranje?

Data mining s algoritmom k-means

K- algoritam za klasteriranje podataka je alat za rudarenje podataka i alat za učenje strojeva koji se koristi za skupljanje promatranja u skupine povezanih promatranja bez prethodnog poznavanja tih odnosa. Uzorkovanjem, algoritam pokušava pokazati u kojoj se kategoriji ili clusteru pripadaju podaci, a broj klastera se definira po vrijednosti k.

K- algoritam je jedna od najjednostavnijih tehnika klasteriranja i obično se koristi u medicinskim slikama, biometriji i srodnim područjima. Prednost k- znači klasteriranje je to što govori o vašim podacima (koristeći svoj nadzor bez obrasca) umjesto da morate uputiti algoritam o podacima na početku (koristeći nadzirani oblik algoritma).

Ponekad se naziva Lloydovim algoritmom, osobito u krugovima računalnih znanosti, jer je standardni algoritam prvi put predložio Stuart Lloyd 1957. godine. Izraz "k-sredstvo" koncipiran je 1967. godine James McQueen.

Kako k-znači funkcije algoritma

K- algoritam je evolucijski algoritam koji dobiva svoje ime od načina rada. Algoritam klasteri opažanja u k skupine, gdje je k predviđen kao ulazni parametar. Zatim svakom promatranju dodjeljuje klastere na temelju blizine promatranja sredini klastera. Značenje klastera zatim se rekomplira i postupak počinje ponovo. Evo kako funkcionira algoritam:

  1. Algoritam arbitrno odabire k točke kao početni klaster centri (sredstva).
  2. Svaka točka u skupu podataka dodjeljuje se zatvorenom klasteru, na temelju euklidske udaljenosti između svake točke i svakog klastera.
  3. Svaki centar klastera recomputira se kao prosjek bodova u tom skupu.
  4. Koraci 2 i 3 ponovite sve dok klaster ne približi. Konvergencija se može definirati drugačije ovisno o provedbi, ali obično znači da niti jedno promatranje ne mijenja klastere kada se ponavljaju koraci 2 i 3 ili da promjene ne čine značajnu razliku u definiciji klastera.

Odabir broja klastera

Jedan od glavnih nedostataka za k- znači klasteriranje je činjenica da morate odrediti broj klastera kao ulaz u algoritam. Kao što je dizajnirano, algoritam nije u stanju odrediti odgovarajući broj klastera i ovisi o korisniku da to unaprijed identificira.

Na primjer, ako biste imali skupinu ljudi koji se žele grupirati na temelju binarnog rodnog identiteta kao muškarca ili žene, pozivanje algoritma k- sredstava pomoću ulaza k = 3 prisililo bi ljude na tri klastera kada su samo dva ili jedan unos k = 2, osigurava prirodnije uklapanje.

Slično tome, ako je grupa pojedinaca jednostavno grupirana temeljem domaće države i zoveš k- znači algoritam s ulazom k = 20, rezultati bi mogli biti preopćeniti da bi bili učinkoviti.

Zbog toga je često dobra ideja eksperimentirati s različitim vrijednostima k da biste utvrdili vrijednost koja najbolje odgovara vašim podacima. Također biste mogli poželjeti istražiti upotrebu drugih algoritama za prikupljanje podataka u vašoj potrazi za računalom naučenim znanjem.