Noteikšanas koeficients (R kvadrātā) - 2021. gads

Noteikšanas koeficients ir mainīgā kopējā dispersijas proporcija, kas izskaidrojama ar regresiju. Noteikšanas koeficients, saukts arī par R kvadrātu, atspoguļo modeļa piemērotības mainīgajam lielumu, ko tas plāno izskaidrot.

Ir svarīgi zināt, ka noteikšanas koeficienta rezultāts svārstās starp 0 un 1. Jo tuvāk tā vērtība ir 1, jo lielāka ir modeļa piemērotība mainīgajam, kuru mēs cenšamies izskaidrot. Un otrādi, jo tuvāk nullei, jo mazāk modelis būs ciešāks un līdz ar to arī mazāk uzticams.

Iepriekšējā izteiksmē mums ir daļa. Tātad, ejam pa daļām. Pirmkārt, mēs analizēsim skaitītāju, tas ir, augšējo daļu.

Tiem, kas nezina dispersijas izteiksmi, iesaku izlasīt rakstu par to. Tiem, kas to zina, viņi var saprast, ka tā ir dispersijas izpausme, bet ar divām būtiskām atšķirībām.

Pirmā atšķirība ir tā, ka Y ir cirkumflekss vai tas, ko skolotāji didaktiski sauc par “cepuri”. Kas ir šī cepure, ir tas, ka Y ir modeļa novērtējums tam, kas saskaņā ar paskaidrojošajiem mainīgajiem ir Y vērts, bet tas nav Y reālā vērtība, bet Y novērtējums.

Otrkārt, būtu nepieciešams dalīt ar T. Kas citos gadījumos tiek atzīmēts kā N vai novērojumu skaits. Tomēr, tā kā saucēja formula to arī nēsātu, mēs vienkāršojam izteicienu no abām formulām noņēmējus (apakšā). Tādā veidā ar to ir vieglāk strādāt.

Tālāk mēs veiksim to pašu analīzi ar saucēja daļu (apakšējo daļu).

Šajā gadījumā vienīgā atšķirība no sākotnējās dispersijas formulas ir tās saucēja neesamība. Tas ir, mēs nedalāmies ar T vai N. Tādā veidā, kad ir izskaidrotas divas R kvadrāta vai noteikšanas koeficienta vispārīgās izteiksmes daļas, mēs redzēsim piemēru.

Variācijas koeficientsLineārās korelācijas koeficientsRegresijas analīze

Noteikšanas koeficienta interpretācija

Pieņemsim, ka mēs vēlamies izskaidrot Krištianu Ronaldu gūto vārtu skaitu, pamatojoties uz viņa spēlēto spēļu skaitu. Mēs pieņemam, ka jo vairāk spēlēs, jo vairāk vārtu viņš gūs. Dati attiecas uz pēdējām 8 sezonām. Tādējādi pēc datu iegūšanas modelis dod šādu aprēķinu:

Kā redzams no diagrammas, attiecības ir pozitīvas. Jo vairāk spēļu, protams, jo vairāk vārtu viņš sezonā gūst. Piemērotība, pamatojoties uz R kvadrāta aprēķinu, ir 0,835. Tas nozīmē, ka tas ir modelis, kura aplēses diezgan labi atbilst reālajam mainīgajam. Kaut arī tehniski tas nebūtu pareizi, mēs varētu teikt kaut ko līdzīgu tam, ka modelis izskaidro 83,5% no reālā mainīgā.

Noteikšanas koeficienta problēma

Noteikšanas koeficienta problēma un iemesls, kāpēc rodas koriģētais determinācijas koeficients, ir tāds, ka tas nesoda nenozīmīgu paskaidrojošo mainīgo iekļaušanu. Tas ir, ja modelim tiek pievienoti pieci paskaidrojošie mainīgie, kuriem ir maza saistība ar mērķiem, kurus Krištianu Ronaldu gūst sezonā, R kvadrāts palielināsies. Tāpēc daudzi ekonometriskie, statistikas un matemātikas eksperti iebilst pret R kvadrāta izmantošanu kā reprezentatīvu reālās piemērotības labestības mēru.

Pielāgotais noteikšanas koeficients

Pielāgotais noteikšanas koeficients (koriģētais R kvadrāts) ir rādītājs, kas nosaka procentus, kas izskaidrojami ar regresijas dispersiju attiecībā pret izskaidrotā mainīgā lieluma dispersiju. Tas ir, tas pats, kas R kvadrātā, bet ar atšķirību: Pielāgotais noteikšanas koeficients soda par mainīgo iekļaušanu.

Kā mēs jau teicām iepriekš, modeļa noteikšanas koeficients palielinās pat tad, ja mainīgie, kurus mēs iekļaujam, nav nozīmīgi. Tā kā šī ir problēma, lai mēģinātu to atrisināt, koriģētais R kvadrāts ir tāds, ka:

Formulā N ir izlases lielums un k ir paskaidrojošo mainīgo skaits. Izmantojot matemātisko dedukciju, lielākas k vērtības, jo tālāk koriģētais R kvadrāts būs no parastā R kvadrāta. Un otrādi, pie zemākām k vērtībām centrālā daļa būs tuvāk 1 un tāpēc koriģētais R kvadrāts un parastais R kvadrāts būs līdzīgāki.

Atceroties, ka k ir izskaidrojošo mainīgo skaits, mēs secinām, ka tas nevar būt nulle. Ja tā būtu nulle, nebūtu modeļa. Mums vismaz būs jāizskaidro viens mainīgais ar citu mainīgo. Tā kā k jābūt vismaz 1, koriģētajam R kvadrātā un parastajā R kvadrātā nevar būt vienāda vērtība. Turklāt pielāgotais R kvadrāts vienmēr būs mazāks par parasto R kvadrātu.