Definiranje statističkog modela regresije

Regresija analizira odnose između varijabli

Regresija je tehnika rudarenja podataka koja se koristi za predviđanje raspona numeričkih vrijednosti (koje se nazivaju i kontinuirane vrijednosti ), s obzirom na određeni skup podataka. Na primjer, regresija se može koristiti za predviđanje troškova proizvoda ili usluge, s obzirom na druge varijable.

Regresija se koristi u više industrija za poslovno i marketinško planiranje, financijsko predviđanje, modeliranje okoliša i analiza trendova.

Regresija vs. Klasifikacija

Regresija i klasifikacija su tehnike rudarenja podataka koje se koriste za rješavanje sličnih problema, ali se često zbunjuju. Oba su korištena u predviđanju analize, ali regresija se koristi za predviđanje numeričke ili kontinuirane vrijednosti, dok klasifikacija dodjeljuje podatke u diskretne kategorije.

Na primjer, regresija će se upotrebljavati za predviđanje vrijednosti kuće na temelju svoje lokacije, četvornih stopa, cijene posljednje prodaje, cijene sličnih domova i drugih čimbenika. Razvrstavanje bi bilo u redu ako biste umjesto toga htjeli organizirati kuće u kategorije, kao što su šetnja, veličina čestica ili stope kriminala.

Vrste regresijskih tehnika

Najjednostavniji i najstariji oblik regresije je linearna regresija koja se koristi za procjenu odnosa između dvije varijable. Ova tehnika koristi matematičku formulu pravocrtne linije (y = mx + b). U običnim terminima to jednostavno znači da, s obzirom na grafikon s Y i X-osi, odnos između X i Y je ravna linija s malo outliera. Na primjer, možemo pretpostaviti da će, s obzirom na porast stanovništva, proizvodnja hrane povećati istom brzinom - to zahtijeva snažan, linearni odnos između dviju veličina. Da biste to vizualizirali, uzmite u obzir grafikon u kojemu se Y-osi prate populaciju, a X-osi prate proizvodnju hrane. Kako se Y vrijednost povećava, vrijednost X povećat će se istom brzinom, čineći odnos između njih ravnu liniju.

Napredne tehnike, poput višestruke regresije, predviđaju odnos između više varijabli - na primjer, postoji li povezanost između prihoda, obrazovanja i gdje se želi živjeti? Dodavanje više varijabli znatno povećava složenost predviđanja. Postoji nekoliko vrsta tehnika višestruke regresije, uključujući standardne, hijerarhijske, složene i koračne, svaka sa svojom primjenom.

U ovom trenutku važno je razumjeti ono što pokušavamo predvidjeti (ovisnu ili predvidjenu varijablu) i podatke koje koristimo za predviđanje (nezavisne ili prediktorske varijable). U našem primjeru želimo predvidjeti mjesto gdje se želi živjeti ( predviđena varijabla) s obzirom na prihod i obrazovanje (obje prediktorske varijable).