Kolmogorova tests - Smirnovs (K-S)

Satura rādītājs:

Kolmogorova tests - Smirnovs (K-S)
Kolmogorova tests - Smirnovs (K-S)
Anonim

Kolmogorova-Smirnofa (K-S) tests ir neparametrisks tests, kura mērķis ir noteikt, vai divu dažādu datu kopu biežumam ir vienāds sadalījums ap vidējo.

Citiem vārdiem sakot, Kolmogorova-Smirnofa (K-S) tests ir tests, kas pielāgojas datu formai un tiek izmantots, lai pārbaudītu, vai divi dažādi paraugi seko vienādam sadalījumam.

Kāpēc tas ir neparametrisks tests?

“Neparametrisko” raksturlielumu skaistums ir tas, ka tie atbilst datiem un līdz ar to sadalījumiem, kas var sekot datu biežumam. Turklāt šī funkcija mūs glābj no nepieciešamības uzņemties priekšroka kādam sadalījumam seko izlase.

K-S testa nozīme

Cik reizes mums ir doti divi paraugi un aprēķināts Pirsona korelācijas koeficients, nedomājot divreiz? Citiem vārdiem sakot, ja mēs vēlamies redzēt lineāru saistību starp divām datu kopām, būtu taisnīgi aprēķināt korelāciju, vai ne?

Šis secinājums būtu patiess, ja divu paraugu sadalījumi sekotu normālam sadalījumam. Korelācijas koeficients pieņem, ka sadalījumi ir normāli, ja mēs izlaižam šo pieņēmumu, korelācijas koeficienta rezultāts ir nepareizs. Hipotēzes testiem un ticamības intervāliem mēs arī pieņemam, ka populācija ir sadalīta caur normālu sadalījumu.

Tāpat kā visiem hipotēžu testiem, kas ietver statistiku, ir svarīgi, lai būtu liels datu apjoms, lai iegūtu statistiski nozīmīgus rezultātus. Mēs varam kļūdaini noraidīt nulles hipotēzi, jo izlase ir maza. Turklāt ir arī svarīgi, lai šajā izlasē būtu daži ārkārtēji gadījumi (ārējie rādītāji, angļu valodā), lai nodrošinātu testa rezultātu konsekvenci.

Testa procedūra

Nākamo darbību procedūra.

Hipotēze

Pirmais solis būs pārbaudīt, vai abiem paraugiem ir vienāds sadalījums. Lai to izdarītu, mēs veicam hipotēzes testu, pieņemot, ka abiem paraugiem ir vienāds sadalījums pret alternatīvo hipotēzi, ka tie ir atšķirīgi.

Statistikas

Mēs strādājam ar divu paraugu F kumulatīvajām sadalījuma funkcijām1(x) un F2x):

Neļauties panikai! Mēs mierīgi analizējam iepriekš minēto formulu:

  • Formulas svarīgā daļa ir atšķirības zīme (-). Mēs meklējam vertikālas sadalījumu atšķirības. Tātad, mēs atņemsim abas kumulatīvās izplatīšanas funkcijas.
  • The operators "max". Mēs esam ieinteresēti atrast lielāko vai maksimālo atšķirību, lai redzētu, cik atšķirīgi var būt divi sadalījumi.
  • The absolūtā vērtība. Mēs izmantojam absolūto vērtību, lai operatoru secība nemainītu rezultātu. Citiem vārdiem sakot, nav svarīgi, kuram F (x) ir negatīva zīme:

Kritiskā vērtība

Lieliem paraugiem ir aptuvena K-S kritiskā vērtība, kas ir atkarīga no nozīmīguma līmeņa (%):

Kur1 un n2 ir F parauga izlases lielums1(x) un F2(x) attiecīgi.

Dažas aprēķinātās kritiskās vērtības:

Noraidīšanas noteikums

App

Ļoti bieži mēs vēlamies pārbaudīt, vai divi sadalījumi ir pietiekami atšķirīgi viens no otra, kad mēs vēlamies veidot prognozēšanas scenārijus (mēs strādājam ar divām izlasēm) vai kad mēs vēlamies novērtēt, kurš sadalījums vislabāk atbilst datiem (mēs strādājam tikai ar vienu izlasi).