Asiantuntija-artikkelit ja ajankohtaisblogit
Sivuston näkymät

Koulutustilastot kehittyvät, hankalasti tulkittavat tilasto­luvut säilyvät

6.10.2021
Twitterissä: @mika_witting
Kuva: Aki Harju

Tilastokeskuksen ja erityisesti koulutus­tilastojen työnkuvaan on vuosikymmenten ajan kuulunut koulutus­tietojen keruu, tarkistaminen, korjaaminen, käsittely ja raportointi. Käytännössä Tilastokeskus on siis vastannut koko koulutus­tilastojen tuotanto ja jakelu­prosesseista. Tietoja on toimitettu opetushallinnon ylläpitämään Vipunen-tilastopalveluun, kansainvälisiin vertailuihin sekä lukuisille muille toimijoille.

Ajat kuitenkin muuttuvat ja niin myös Tilastokeskuksen rooli koulutus­tilastojen tuottamisessa. Korkeakoulu­tilastojen osalta suorista on tiedonkeruista luovuttu jo vuosina 2014-2015 ja tiedot tulevat Tilasto­keskukselle korkeakoulujen valtakunnallisen tietovarannon (VIRTA) kautta.

Vuonna 2019 Opetushallitus otti käyttöön Kansallisten opiskelu­oikeuksien ja suoritusten keskitetyn integraatio­palvelun (KOSKI), johon tallennetaan henkilö­pohjaisina kaikki koulutustiedot esi- ja perusopetuksesta toisen asteen koulutukseen. Tilastokeskus on lakkauttanut sen myötä suoria tiedonkeruita opetuksen ja koulutuksen järjestäjille niiden tietojen osalta, jotka sisältyvät KOSKI-tietovarantoon.

Tiedonkeruiden osalta Tilasto­keskuksella ei siis ole tehtävänä enää muuta kuin täydentäviä keruita niiltä osin, joilta KOSKI tai VIRTA eivät kata koko koulutuskenttää.

KOSKI-tietovarannon käyttöönotto tuo mukanaan parempia analyysi­mahdollisuuksia, minkä lisäksi tilastotuotantoa pystytään automatisoimaan enemmän. Ensimmäistä kertaa on mahdollista tuottaa rekistereiden avulla henkilö­pohjaisia tilastoja esi- ja perusopetuksesta, mikä avaa uusia mahdollisuuksia ymmärtää esimerkiksi koulutuksen periytymistä ja siihen liittyviä merkittäviä nivelvaiheita.

Valitettavasti yksi asia ei kuitenkaan muutu: samasta ilmiöstä pystytään edelleen tuottamaan kahdet eri tilastoluvut. Tilastontekijänä on syytä siis varautua edelleen vastaamaan asiakkaiden tiedusteluihin, miksi Vipusen luvut poikkeavat Tilasto­keskuksen luvuista, vaikka tilastoitava ilmiö ja tilastointi­päiväkin on sama. Lienee syytä avata hieman problematiikkaa kaksien eri tilastolukujen taustalla.

Opetushallinto julkaisee Vipunen-tilasto­palvelussa kahdenlaista KOSKI-tietovarantoon perustavaa raportointia: jatkuvasti päivittyviä liveraportteja sekä jäädytettyjä raportteja, jotka perustuvat Tilasto­keskuksen kanssa tehtyyn tietopalvelu­sopimukseen ja pyrkivät jatkamaan aikasarjoja. Liveraportit kuvaavat nimensä mukaisesti ajantasaista tilannetta KOSKI-tietovarannossa, myös taaksepäin menneisyyteen. Miksi liveraporttien luvut voivat poiketa paljonkin jäädytetyistä luvuista:

  • Tietovarantojen toteutuksissa on eroja. Tilasto­keskukseen haetaan KOSKESTA kaikki suoritus- ja opiskelutiedot sekä näihin liitetyt muutokset. Toisin sanoen Tilasto­keskuksessa on mahdollista päätellä henkilö ylimmälle vuosiluokalle sellaisissa tapauksissa, joissa opiskelijalla on päättämättömiä suorituksia alemmilla vuosiluokilla. Vipusen raporteilla tieto uuden vuosiluokan aloittamisesta jyrää edellisen vuosiluokan tiedon, mikäli sitä ei ole merkitty KOSKI-tieto­varantoon päättyneeksi. Näin ollen henkilö ei enää sisälly edellisen vuoden oppilasmääriin.
  • Tilastokeskuksella ja Vipusella on erilaiset perusjoukot tietokannoissaan. KOSKI kattaa vain opetus­hallinnon alaiset koulutuksen järjestäjät, kun Tilasto­keskuksen tiedot kattavat kaikki koulutuksen järjestäjät. Opetushallinnon alaisuuteen kuulumattomien koulutuksen järjestäjien osalta Tilastokeskus kerää tiedot edelleen erilliskeruilla.
  • Tilastokeskus tekee KOSKI-dataan useita tarkistuksia ja tarvittaessa korjaa tietoja. Henkilö­tunnuksista tarkistetaan tunnuksen muodon oikeellisuuden lisäksi välimerkit, jotka korjataan oikeiksi. Täten saadaan myös parannettua väestötason taustamuuttujien (esim. kotikunta, kansalaisuus, äidinkieli) kattavuutta, sillä yhdistäminen väestörekisterin tietoihin tehdään henkilö­tunnuksen avulla. Tausta­muuttujien osalta Tilastokeskus käyttää vuoden viimeisen päivän tietoja, kun Vipunen-tilastopalvelun luvuissa käytössä on reaaliaikainen tieto.
  • Tilastokeskus vertaa koulutustietoja omiin rekistereihinsä ja korjaa havaitsemansa virheelliset tiedot oikeiksi. Ylimääräiset tupla­opiskeluoikeudet poistetaan, lukio­koulutuksen opiskelijoista poistetaan ylioppilas­tutkinnon jo suorittaneet, minkä lisäksi koulutuksen aloittamis­aikoihin tehdään korjauksia aiempien rekisteri­aineistojen perusteella.

Kuinka suurista eroista sitten on kyse vaikkapa perusopetuksessa? Alla on taulukoituna perusopetuksen oppilaat vuosiluokittain.

Taulukko 1. Perusopetuksen oppilaat vuosiluokittain Tilastokeskuksen ja Vipusen mukaan
2020   Tilastokeskus  Vipunen    
Yhteensä 555 284 534 945
1. vuosiluokka  60 297 57 348
2. vuosiluokka 61 509 58 971
3. vuosiluokka 61 724 60 075
4. vuosiluokka 63 164 61 299
5. vuosiluokka 62 621 60 366
6. vuosiluokka 62 049 58 818
7. vuosiluokka 61 310 58 977
8. vuosiluokka 62 115 58 695
9. vuosiluokka 60 495 60 396

Lähteet: Vipunen
Tilastokeskus, Opiskelijat ja tutkinnot, Esi- ja perusopetus

Käytännössä erot ovat siis muutaman tuhannen luokkaa vuosiluokkaa kohden. Lukijaa saattaa mietityttää, onko esimerkiksi 3. vuosiluokan oppilaiden 1 600 oppilaan erolla minkälaista vaikutusta. Asiaa voidaan esimerkin­omaisesti tarkastella osallistumis­asteiden kautta. Osallistumis­asteella tarkoitetaan sitä osuutta ikäluokasta, joka on perusopetuksen piirissä. Koulutuksessa olevien määrää verrataan samanikäiseen väestöön.

Suurin osa 3.vuosiluokan oppilasta on 9-vuotiaita. 9-vuotiaita oli Suomen väestössä 31.12.2020 yhteensä 62 400. Vertaamalla 3. vuosiluokan oppilaiden määriä tähän kantalukuun saadaan osallistumis­asteiksi Tilastokeskuksen luvuilla 99 ja Vipusen luvuilla 96 prosenttia. Kolmen prosentti­yksikön ero oppivelvollisuus­ikäisiä tarkasteltaessa on huomattava.

Kahdet eri tilastoluvut tuovat omat haasteensa lukujen tulkitsemiseen. Tilastokeskus julkaisee virallisia tilastoja, mutta luvut tulevat viiveellä, sillä tietojen tarkistaminen ottaa oman aikansa. Vipusessa julkaistavat live-raportit puolestaan mahdollistavat lähes reaaliaikaisen koulutus­tilastoinnin.

Molemmille tarkasteluille on käyttötarpeensa. Erilaiset näkökulmat laajentavat ja rikastavat mahdollisuuksia tarkastella koulutusilmiötä, mutta voivat myös hämmentää tietojen käyttäjiä.

Tilastokeskus tekee tiivistä yhteistyötä opetushallinnon kanssa, jotta tietojen erot olisi esitetty mahdollisimman selvästi ja tilastotiedot olisivat mahdollisimman yhteneviä. Täysin samoihin tilastolukuihin pääseminen on kuitenkin haasteellista tilastoinnin eroavuuksien takia.

 

Kirjoittaja työskentelee yliaktuaarina Tilastokeskuksen koulutus­tilastoissa.

Blogikirjoitukset eivät ole Tilastokeskuksen virallisia kannanottoja. Asiantuntijat kirjoittavat omissa nimissään ja vastaavat kukin omista kirjoituksistaan.

Lue samasta aiheesta:

Blogi
31.10.2022
Tarja Seppänen

Koronarajoitusten myötä itseohjatusti opiskelleiden osuus yritysten henkilöstöstä kasvoi selvästi vuonna 2020, kertoo viiden vuoden välein julkaistava henkilöstökoulutusta koskeva tutkimus. Korona-aikana koulutukset siirtyivät verkkoon, webinaarit saavuttivat suursuosion ja etäkoulutukset toivat kustannussäästöjä yrityksille.

Blogi
24.10.2022
Jukka Hoffren

Demokratioissa tilastot ovat osa yhteiskunnallista keskustelua, päätöksentekoa sekä seurausten arviointia  ja puolueettomina ne luovat edellytyksiä kompromisseille. Tietoon perustuva päätöksenteko edellyttää hidasta, harkitsevaa ja kyseenalaistavaa ajattelua. Jotta demokratia säilyisi informaatioyhteiskunnan perustana, tulisi tilastojen luku- ja käyttötaidosta tehdä yleinen kansalaistaito.

Blogi
20.10.2022
Anna Pärnänen

Miten keskustelisimme nyt vaikkapa palkkojen ostovoimasta – eli inflaatiosta ja ansioiden kehityksestä – tai nuorten mielenterveysongelmista, jos mitään tilastotietoa yhteiskunnasta ei olisi olemassa? kysyy Anna Pärnänen Euroopan tilastopäivän blogissaan. 

Blogi
1.7.2022
Sirkku Hiltunen

Suomi lukuina 2022 -julkaisujen kesä alkoi tänä vuonna vauhdikkaasti: uunituoreet taskutilastot olivat jo kesäkuun alussa mukana juhlistamassa Tutkitun tiedon teemavuotta Heurekassa. Taskuun menevään julkaisuun on jälleen kerran koottu mielenkiintoisia tilastolukuja – vanhimmat lähes 300 vuoden takaa. Lue blogista toimittajan poiminnat.

Blogi
9.6.2022
Anna Pärnänen

Suuri määrä eri mittareita kertoo monenlaista tarinaa lasten tilanteesta Suomessa, mutta tieto on hajallaan. Tilastokeskus suunnittelee lapsia ja nuoria koskevaa tietoa kokoavan portaalin – paitsi helpottaakseen tiedon käytettävyyttä myös palvellakseen kansallisen lapsistrategian toteutusta.

Blogi
7.3.2022
Leena Storgårds

YK:n tilastotoimen laatimat tilastotyön perus­periaatteet täyttävät tänä vuonna 30 vuotta. Vuosien saatossa niiden merkitys on vahvistunut yhteiskunnassa. Perus­periaatteet luovat hyvän perustan tietojen hallinnalle ja jakamiselle erityisesti julkisella sektorilla.

tk-icons