Ir meli, ir salti meli un ir statistika
Priekšvārds
Gadu mijā žurnāliste Inga Spriņģe piesaistīja manu uzmanību skolu sistēmas nevienlīdzības problēmai Latvijā un 2016. publicētajam PISA petījuma rezultātiem. Ņemot vērā, ka tik nozīmīgā bet komplicētā jautājumā ir svarīgi maksimāli izmantot objektīvu informāciju, es nolēmu pamēģināt ar savām dabaszinātnieka statistisko datu analīzes iemaņām noskaidrot, kādus secinājumus par "lauku skolu problēmu" var statistski pamatot, basltoties tikai PISA datos. Rezutlātā vienas dienas laikā ir tapis zemāk lasāmais darbs. Tas nostāvējis atvilktnē līdz 2017. septembrim, kad Latvijas Bankas ekonomists Oļegs Krasnopjorovs ir publicējis ekonometriskās analīzes secinājumus. Saprotot, ka mana vingrinājumi rezultāti var būt noderīgi speciālistiem, tagad publicēju šo emuāra ierakstu.
Dati
Šajā darbā ir izmantoti dati par Latvijas pēdējo pamatskolas klašu skolēnu sekmēm starptautiskajā skolēnu novērtēšanas programmā PISA 2015 [1]. Konkrētā datu kopa aptver reprezentatīvu 250 skolu izlasi, un ir attēlota darba [1] 9.2 un 9.3 attēlos 88. lpp. Šo attēlu anonimizētus izejas datus lapini sagādājis pētījuma [1] līdzautors Andrejs Geske ar Ingas Spriņģes starpniecību.[1] Andrejs Geske, Andris Grīnfelds, Andris Kangro, Rita Kiseļova, "Latvija OECD Starptautiskajā skolēnu novērtēšanas programmā 2015 - pirmie rezultāti un secinājumi". Andra Kangro redakcijā. Rīga, 2016. Tiešasaitē: http://www.ipi.lu.lv/fileadmin/user_upload/lu_portal/projekti/ipi/Publikacijas/Gramata2015.pdf
Mērķis un pētamais jautājums
Šīs analīzes mērķis ir noskaidrot, vai PISA pētījuma datos var konstatēt atšķirības starp lauku un pilsētu skolām, kas nav skaidrojamas ar pārējiem pētījumā reģistrētajiem mainīgajiem: skolas tips (pamatskola, vidusskola, ģimnāzija, valsts ģimnāzija), skolēna ģimenes sociāli-ekonomiskais statuss (SES) vai skolēnu skaits skolā.Datu vizuālā apsekošana skaidri parāda, ka skolas tipam ir liela ietekme uz sekmēm (piemēram, vidusskolu audzēkņi vidēji uzrāda augstākus rezultātus nekā pamatskolās), un skolas tips, protams, stipri korelē ar kopējo skolēnu skaitu. Tā kā ārpus pilsētām dominējošais skolu tips ir pamatskolas, šī strukturāla atšķirība atstāj būtisku ietekmi uz relatīvi zemo lauku skolu sniegumu PISA novērtējumā.
Lai izslēgtu šī dominējoša mainīgā ietekmi, analīzē ir salīdzinātas tikai pamatskolas ar zināmu kopēju skolēnu skaitu skolā: pieejamajos datos tādu ir 21 no pilsētām un 45 no laukiem. Visa tālākā analīze balstās tikai uz šo PISA 2015 datu apakškopu.
Metodes
Katram lielumam, kas tiek salīdzināts starp divām izlasēm (piemēram, sniegums lasītprasmē lauku skolās pretstatā pilsētu skolām), tika aprēķinātas vairāku statistisku testu t.s. P-vērtības.Statistiskie testi: Kolmogorov-Smirnov tests uz divu izlašu atšķirību un Mann–Whitney U tests uz divu izlašu mediānu atsķirību ir neparametriskie, proti, neizdara a priori pieņēmumu par nejaušu faktoru normālsadalījumu. Tam nav izšķiroša nozīme, jo izlases atbilstība normālajam sadalījuma izpildās katram mainīgajam atsevišķi lauku un pilsētu skolu datu kopās (atskaitot SES pilsētu skolām un skolēnu skaitu lauku skolās, to var pamanīt arī vizuāli, pēc izteikti pozitīvas asimetriijas atbilstošajās histogrammās). Levene ir izlašu dispersiju atšķirības tests normāli sadalītajiem datiem, savukārt divu-izlašu t-tests pārbauda izlašu atšķirību normāli sadalītajiem datiem. t-test un KS testa rezultātu saskanīgums ir papildu nepretrunības pārbaude.
P-vērtība ir varbūtība, ka novērotie dati nejauši atbilst nulles hipotēzei (mūsu testu gadījumā - tam, kas nav atšķirību). Vienkāršojot, P vērtība 0.1-0.9 nozīmē, kas izlases/mediānas/dispersijas statistiski nav atšķiramas, savukārt P-vērtība, kas ir daudzkārt mazāka par 0.01, nozīmē statistiski nozīmīgu atšķirību. P-vērtība no 1% līdz 10% ir statistikas "pelēkā zona" starp satistiski nozīmīgu un nenozīmīgu atšķirību.
Rezultāti un analīze
Attēls 1: Pamatskolu salīdzinājums starp laukiem un pilsētām. Pirmajos trīs grafikos ir salīdzinātas skolēnu sekmes matemātikas, dabaszinatņu un lasītprasme PISA testos, tālāk seko SES indeksa (mērvienības- strandarnovirze no vidējā [1]) un skolēnu skaita sadalījumu salīdzinājums. Uz vertikalās ass ir relatīvais biežums konkrētajam histogrammas intervālam (stabiņam), proti, sadalījumi ir normēti atsevišķi. Zem katra grafika ir atbilstošo statistisko testu P-vērtības salīdzināmām izlasēm.Attēlā 1 starp rezultātu sadalījumiem ir redzama būtiska atšķirība, ko apstiprina arī formālie statistiskie testi. Laukos rezultātu sadalījums ir platāks, ar lielāku vājo rezultātu īpatsvaru. Šo novērojumu apstiprina Levene tests uz statistiski nozīmīgu dispersiju atšķirību. Statistikas valodā salīdzināmās kopas ir heteroscedastic, kas apgrūtina regresijas analīzes (piemēram, ANCOVA) piemērošanu un ticamības līmeņu pamatošanu. (Arī Mann–Whitney U tests un t-tests izmanto pieņēmumu par salīdzināmu kopu vienādām dispersijām, bet salīdzinājums ar Kolmogorov-Smirnov liecina, ka kvalitatīvā secinājuma par atšķirību statistisko nozīmīgumu tas nemaina).
Pētamais kvalitatīvais kritērijs lauki/pilsēta stipri korelē gan ar SES (r=0.57), gan ar skolēnu skaitu skolā (r=0.85). To var uzskatāmi redzēt Attēlā 1 pēc atbilstošo histrogramu relatīvās nobīdes. Šī ir stiprāka korelācija nekā ar rezultatīvo mainīgo (piemēram, lauki/pilsēta korelācija ar lasītprasmi ir tikai r=0.38), tādējādi ar regresiju analīzi būtu grūti pamatot cēlonību. Vienkāršojot, tas nozīmē, kas laukos ģimenēm ir zemāka turība un skolas ir mazākas, nekā pilsētās, un statistiski nevar pateikt vai cilvēki dzīvo laukos tāpēc, ka viņiem ir zemāki ienākumi vai ienākumi ir zemāki, tāpēc, ka dzīvo laukos.
Tomēr mēs varam kvalitatīvi novērtēt, vai atlikušie faktori (SES un skolēnu skaits) spēj pilnībā izskaidrot aprakstītās atšķirības starp lauku un pilsētu skolām (nespēj, skat zemāk).
Attēls 2. Salīdzinājums starp lasītprasmes reitinga augšējo (top 50%) un apakšējo (bottom 50%) pusi, lauku pamatskolu starpā.
Attēlā 2 lauku pamatskolu kopa ir sadalīta divās vienādās daļās pēc lasītprasmes rezultātiem. Kā būtu sagaidāms, šāds dalījums labi atdala rezultātus arī matemātikā un dabaszinātnēs PISA pārbaudījumu rezultātu lielas korelācijas dēļ. Toties atšķirības SES un skolēnu skaitā ziņā starp nosacīti "labākajām" un "sliktākajām" lauku pamatskolām ir krietni mazākas nekā starp lauku un pilsētu skolām (salīdzini SES un skolēnu skaita grafikus Attēlā 1), un dotajam izlases izmēram nav statistiski nozīmīgi (skat P-vērtības nulles hipotēzei par SES un skolēnu skaita sadalījumu ekvivalenci). Tādēļ šie faktori (SES vai skolēnu skaits) nav noteicoši skolēnu sniegumu atšķirībai starp pamatskolām.
Attēls 3. Salīdzinājums starp lasītprasmes reitinga augšējo pusi lauku pamaskolām un visām pilsētas pamatskolām. Sniegumu sadalījumi nav statistiski izšķirami par spīti būtiskajai SES un skolēnu skaita atšķirībai.
Par labu nebūtiskai SES un skolēnu skaita ietekmei uz pamaskolēnu sniegumu runā arī labāko 50% lauku pamatskolu salīdzinājums ar visām pilsētas pamatskolām ("visām", protams, pieejamās izlases ietvaros), skat. attēlu 3. Mēs redazam, šo nosacīti "labāko" skolu audzēkņi uzrāda tādus pašus rezultātus kā pislētu pamatskolas, neskatotis uz būtiski zemāku SES un mazāku skolēnu skaitu skolā.
Līdzīgi lasītprasmes rādītājam, aplūkosim pētamās kopas (45 laukus skolas) sadalīšanu divās daļās pēc mediānas arī SES un skolēnu skaita rādītājos (Attēls 5 un 4, attiecīgi).
Attēls 4. Lauku pamatskolu sadalījums pēc skolēnu skaita: "mazākās" ir saraksta puse ar skolēnu skaitu zem mediānas 90, "lielākās" - ar skaitu virs 90 (max. 240). Kaut arī mazājās skolās mācās bērni ar statistiski zemāku SES, snieguma sadalījumu atšķirības nav statistiski nozīmīgas.
Attēls 5. Lauku pamatskolu salīdzinājums pēc skolēnu sociāli ekonomiskā statusa: visa izlase sadalīta divās daļās pēc SES mediānas. SES nosaka atšķirību tika daļēji, jo snieguma sadalījuma atšķirības ir krietni mazākas nekā lauku-pilsētu atšķirības (salīdzini ar Attēlu 1).
Skolēnu skaita minimāla ietekme uz sniegumu pamatskolās ar skolēnu skaitu zem 240 (par ko liecina Attēls 4, kā arī zemais korelācijas koeficients starp lauku pamatskolu lasītprasmes rezultātu un skolēnu skaitu, r=0.17) ir viens no šī analīzes negaidītajiem secinājumiem. SES daļēja ietekme uz sniegumu pamatskolu griezumā kvalitatīvi saskan ar secinājumu visas PISA datu kopas griezumā, skaties 10. sadaļu un 10.2 attēlu pētījumā [1].
Secinājumi
- Laukos ir ievērojams skaits pamatskolu, kurās skolēnu rezultāti ir būtiski sliktāki par pilsētu pamatskolu skolēnu rezulātiem (nosacīti "sliktās skolas").
- Atšķirība starp lauku "sliktajām" un "labājām" skolām nav saistīta ar skolēnu skaitu skolā - salīdzinot mazās (< 90 skolēnu) skolas ar lielajām (no 90 līdz 240), atšķirības sniegumā pazūd.
- Sliktākus rezultātus lauku pamatskolās tikai daļēji izskaidro trūcīgums (zems ģimeņu vidējais sociāli-ekonomiskais statuss).
- Labākās lauku pamatskolas spēj nodrošināt sniegumu ne sliktāku par pilsētas pamatskolām, neskatoties uz skolēnu zemāku sociāli-ekonomisko statusu un mazāku kopējo skolēnu skaitu.
Uz ieraksta publicēšanas brīdi secinājumu pamatotību nav pārbaudījuši neatkarīgi statistikas eksperti (šīs "zinātniskais raksts" ir pašpublicēts un nav recenzēts). Aicinu profesionāļus izteikt kritiku ar sociālo mediju palīdzību.