Regresija analizira odnose između varijabli
Regresija je tehnika rudarenja podataka koja se koristi za predviđanje raspona numeričkih vrijednosti (koje se nazivaju i kontinuirane vrijednosti ), s obzirom na određeni skup podataka. Na primjer, regresija se može koristiti za predviđanje troškova proizvoda ili usluge, s obzirom na druge varijable.
Regresija se koristi u više industrija za poslovno i marketinško planiranje, financijsko predviđanje, modeliranje okoliša i analiza trendova.
Regresija vs. Klasifikacija
Regresija i klasifikacija su tehnike rudarenja podataka koje se koriste za rješavanje sličnih problema, ali se često zbunjuju. Oba su korištena u predviđanju analize, ali regresija se koristi za predviđanje numeričke ili kontinuirane vrijednosti, dok klasifikacija dodjeljuje podatke u diskretne kategorije.
Na primjer, regresija će se upotrebljavati za predviđanje vrijednosti kuće na temelju svoje lokacije, četvornih stopa, cijene posljednje prodaje, cijene sličnih domova i drugih čimbenika. Razvrstavanje bi bilo u redu ako biste umjesto toga htjeli organizirati kuće u kategorije, kao što su šetnja, veličina čestica ili stope kriminala.
Vrste regresijskih tehnika
Najjednostavniji i najstariji oblik regresije je linearna regresija koja se koristi za procjenu odnosa između dvije varijable. Ova tehnika koristi matematičku formulu pravocrtne linije (y = mx + b). U običnim terminima to jednostavno znači da, s obzirom na grafikon s Y i X-osi, odnos između X i Y je ravna linija s malo outliera. Na primjer, možemo pretpostaviti da će, s obzirom na porast stanovništva, proizvodnja hrane povećati istom brzinom - to zahtijeva snažan, linearni odnos između dviju veličina. Da biste to vizualizirali, uzmite u obzir grafikon u kojemu se Y-osi prate populaciju, a X-osi prate proizvodnju hrane. Kako se Y vrijednost povećava, vrijednost X povećat će se istom brzinom, čineći odnos između njih ravnu liniju.
Napredne tehnike, poput višestruke regresije, predviđaju odnos između više varijabli - na primjer, postoji li povezanost između prihoda, obrazovanja i gdje se želi živjeti? Dodavanje više varijabli znatno povećava složenost predviđanja. Postoji nekoliko vrsta tehnika višestruke regresije, uključujući standardne, hijerarhijske, složene i koračne, svaka sa svojom primjenom.
U ovom trenutku važno je razumjeti ono što pokušavamo predvidjeti (ovisnu ili predvidjenu varijablu) i podatke koje koristimo za predviđanje (nezavisne ili prediktorske varijable). U našem primjeru želimo predvidjeti mjesto gdje se želi živjeti ( predviđena varijabla) s obzirom na prihod i obrazovanje (obje prediktorske varijable).
- Standardna višestruka regresija uzima u obzir sve varijable prediktora u isto vrijeme. Na primjer: 1) kakav je odnos između prihoda i obrazovanja (prediktora) i izbora susjedstva (predviđenih)? i 2) u kojoj mjeri svaki od pojedinačnih prediktora doprinosi tom odnosu?
- Stepwise višestruka regresija odgovara na sasvim drugačije pitanje. Postupni regresijski algoritam će analizirati koji prediktori se najčešće koriste za predviđanje izbora susjedstva - što znači da stupnjeviti model procjenjuje redoslijed važnosti varijabli prediktora, a zatim odabire relevantni podskup. Ova vrsta problema regresije koristi "korake" za razvoj regresijske jednadžbe. S obzirom na ovu vrstu regresije, svi prediktori se možda čak ne pojavljuju u konačnoj regresijskoj jednadžbi.
- Hijerarhijska regresija , kao u koracima, je sekvencijalni proces, ali se prediktorske varijable unose u model unaprijed definiranim redoslijedom, tj. Algoritam ne sadrži ugrađeni skup jednadžbi za određivanje redoslijeda unesite prediktore. Ovo se najčešće koristi kada pojedinac koji stvara regresijsku jednadžbu ima stručno znanje o polju.
- Sredina regresija također je slična koracima, ali analizira skupove varijabli, a ne pojedinačne varijable.