Outlier - kas tas ir, definīcija un jēdziens 2021. gads

Satura rādītājs:

Anonim

Izteikums ir nenormāls un ārkārtējs novērojums statistikas izlasē vai datu rindā, kas potenciāli var ietekmēt tā parametru novērtējumu.

Vienkāršāk sakot, iznākums būtu novērojums izlasē vai datu laika rindā, kas neatbilst pārējiem. Iedomājieties, piemēram, ka mēs mērām skolēnu augumu klasē.

Iedomāsimies 10 studentu izlasi. Katra no tām augstums ir šāds:

1. paraugs
StudentsAugstums metros
11,65
21,80
31,72
41,68
51,75
61,85
71,62
81,79
91,82
101,69

Klases vidējais augstums būtu 1,73. Ja ņem vērā maksimālo augstumu (1,85) un minimālo augstumu (1,62) un attālumu starp tiem līdz vidējam, mēs redzam, ka tas ir attiecīgi 0,113 un 0,117. Kā redzam, vidējais rādītājs ir aptuveni intervāla vidū un to var uzskatīt par diezgan labu novērtējumu.

Izteiktais efekts

Tagad padomāsim par vēl vienu 10 studentu izlasi, kuru augstums ir šāds:

1. paraugs
StudentsAugstums metros
11,65
21,80
31,72
41,68
52,18
62,20
71,62
81,79
91,75
101,69

Šajā gadījumā klases vidējais augstums būtu 1,81. Ja tagad mēs skatāmies uz maksimālo augstumu (2,20) un minimālo augstumu (1,62) un attālumu starp tiem līdz vidējam, mēs redzam, ka tas ir attiecīgi 0,39 un 0,18. Šajā gadījumā vidējais rādītājs vairs nav aptuveni diapazona vidū.

2 galējo novērojumu (2.18. Un 2.20.) Ietekme ir novedusi pie vidējā aritmētiskā virziena uz maksimālo sadalījuma vērtību.

Izmantojot šo piemēru, mēs redzam efektu, ko rada nepieļaujamie rādītāji, un kā tie var sagrozīt vidējā līmeņa aprēķinu.

Kā atklāt nepieļautos rādītājus?

Kā izlabot atšķirīgo efektu

Šādās situācijās, kad ir nenormālas vērtības, kas būtiski atšķiras no pārējām, mediāna ir labāka aplēse, lai uzzinātu, kurā brīdī tiek koncentrēts lielāks novērojumu skaits.

Abiem sadalījumiem un tā kā mums ir pāra skaitlis, mēs nevaram ņemt precīzi vērtību, kas sadalījumu uz pusi samazina, lai aprēķinātu mediānu. Ar kuru, sakārtojot vērtības no zemākās līdz augstākajai, mēs veiktu piekto un sesto novērojumu (abi atstāj 4 novērojumus katrā pusē), un mēs aprēķinātu mediānu šādi:

1. paraugs:

1,75+1,72/2 = 1,73

2. paraugs:

1,79+1,71/2 = 1,75

Kā redzam, 1. izlasē, ņemot vērā to, ka nav atšķirību vai patoloģisku novērojumu, mediāna ir 1,73 un sakrīt ar vidējo. Gluži pretēji, 2. paraugam vidējais ir 1,75. Kā redzam, šī vērtība ir tālāk no vidējā augstuma, kas bija 1,81 un dod mums augstāku kvalitātes punktu novērtējumu, lai aptuveni zinātu, kurā brīdī tiek koncentrēts lielāks novērojumu skaits.

Punktu tāme