Puoluekannatus ja virhemarginaalit

Alma Media ja Yle julkistivat joulukuun lopulla peräkkäisinä päivinä puolueiden kuntavaalikannatusta koskevat mielipidemittauksensa. Tietoykkönen Oy:n Almalle toteuttaman kyselyn haastattelut tehtiin 9.–18.12., Taloustutkimus taas toteutti Ylen kyselyn 7.–28.12. Puolueiden kannatusprosentit kummassakin kyselyssä on lueteltu alla olevassa taulukossa.

Yle Alma Media
SDP 21,2 % 20,1 %
keskusta 20,3 % 19,5 %
kokoomus 17,4 % 17,1 %
vihreät 13,3 % 11,2 %
PS 9,4 % 11,6 %
vasemmistoliitto 7,6 % 8,8 %
RKP 4,9 % 4,5 %
KD 3,6 % 3,7 %
muut 2,3 % 3,5 %

Puolueiden kannatuksissa on havaittavissa pieniä eroja kyselyiden välillä. Huolimatta siitä, että mielipidemittausten aikavälit poikkeavat hieman toisistaan, Alman kyselyn aikaväli mahtuu kokonaan Ylen kyselyn ”sisään”. Voisi kuvitella, että liki samaan aikaan tehdyt mielipidemittaukset antaisivat melko tarkalleen samat kannatuslukemat kullekin puolueelle. Näin ei kuitenkaan ole. Mistä se johtuu?

Vastaus kysymykseen löytyy tietenkin mielipidemittausten virhemarginaalista. Mutta mitä virhemarginaali oikeastaan tarkoittaa ja miten sitä pitäisi tulkita?

Virhemarginaali ja luottamusväli

Otetaan lähempään tarkasteluun ne kaksi puoluetta, joiden kannatuslukemissa ero Ylen ja Alma Median kyselyiden välillä on suurin: poliittisen spektrin vastakkaisilta laidoilta löytyvät vihreät ja perussuomalaiset.

Ylen kyselyssä vihreät on neljänneksi suurin puolue selvällä erolla viidenneksi suurimpaan puolueeseen perussuomalaisiin. Alma Median kyselyssä puolueet taas ovat lähes tasoissa, mutta perussuomalaiset johtaa vihreitä täpärästi.

Molempien kyselyiden ilmoitettu virhemarginaali on ±2,4 prosenttiyksikköä. Tarkoittaako tämä, että esimerkiksi vihreiden todellinen kannatus voi Ylen kyselyn mukaan olla yhtä hyvin mikä hyvänsä luku välillä 10,9–15,7 % ja Alma Median mukaan välillä 8,8–13,6 %? Ei tarkoita.

Ensin lienee hyvä hieman avata, mikä on virhemarginaalin määritelmä. Tilastotieteellisin termein ilmaistuna mielipidemittauksen virhemarginaali on sama asia kuin 95 prosentin luottamusvälin (engl. confidence interval) puolikas. Tämä tarkoittaa siis sitä, että mikäli tutkimuksen otos on harhaton (tästä lisää artikkelin loppupuolella) puolueen todellinen kannatus on 95 prosentin todennäköisyydellä jollain kohtaa vaihteluväliä, joka ulottuu virhemarginaalin verran ilmoitetusta prosenttiluvusta kumpaankin suuntaan.

Kyselyn virhemarginaali lasketaan seuraavalla kaavalla:

Kaavassa p merkitsee puoluekannatuksen tai muun mittauksen kohteena olevan asian suhteellista osuutta desimaalilukuna (esim. vihreiden kannatus Ylen kyselyssä = 0,133) ja n kyselyyn vastanneiden määrää eli otoskokoa. 1,96 tulee kaavaan taas siitä, että 95 prosentin vaihteluvälin äärirajat ovat ±1,96 keskihajonnan etäisyydellä keskiarvosta.

Suoraan kaavasta ilmenee kaksi merkittävää virhemarginaalia koskevaa seikkaa:

  1. Populaation eli perusjoukon, siis koko tutkimuksen kohteena olevan ryhmän koko ei vaikuta virhemarginaaliin. Voi tuntua epäintuitiiviselta, että puolueiden kannatuksen selvittämiseksi koko Suomessa (5,5 milj. as.) tai pelkästään vaikkapa Lappeenrannassa (73 000 as.) tarvitaan yhtä suuri otos saman virhemarginaalin saamiseksi. Mikäli otoskoko on hyvin lähellä populaation kokoa, näin ei itse asiassa olekaan, mutta useimmissa käytännön tilanteissa sama otos tuottaa mielipidemittauksessa yhtä suuren virhemarginaalin, oli tutkimuksen kohteena sitten 50 miljoonan tai 50 000:n kokoinen ihmisjoukko.
     
  2. Erisuuruisilla kannatusluvuilla on eri virhemarginaalit. Tämä merkitsee sitä, että mielipidemittauksen ilmoitettu virhemarginaali pätee sellaisenaan vain yhteen vertailussa mukana olevista puolueista (yleensä suurimpaan niistä). Luvun virhemarginaali on sitä suurempi, mitä lähempänä 50 prosenttia se on. Niinpä pienempien puolueiden kohdalla todellinen marginaali on ilmoitettua pienempi.

Ylen kyselyyn vastasi 1 946 henkilöä, joista 57,6 % eli 1 121 kertoi puoluekantansa. Alma Mediaa varten haastatelluista 1 500 henkilöstä kantansa ilmaisi 70,8 % eli 1 062. Näillä luvuilla saadaan yllä esitettyä kaavaa käyttäen laskettua seuraavat virhemarginaalit kullekin puolueelle:

Yle (n = 1 121) Alma Media (n = 1 062)
SDP ±2,4 % ±2,4 %
keskusta ±2,4 % ±2,4 %
kokoomus ±2,2 % ±2,3 %
vihreät ±2,0 % ±1,9 %
PS ±1,7 % ±1,9 %
vasemmistoliitto ±1,6 % ±1,7 %
RKP ±1,3 % ±1,2 %
KD ±1,1 % ±1,1 %
muut ±0,9 % ±1,1 %

Todellinen arvo voi olla myös virhemarginaalin ulkopuolella

On huomionarvoista, että virhemarginaalin laskemiseen käytetty luottamusväli on 95, ei suinkaan 100 prosenttia. Todellinen arvo voi siis löytyä myös virhemarginaalin ulkopuoleltakin. Yksittäisen puolueen kannatuksen tapauksessa tämän todennäköisyys on vain 5 %, mutta koska yhdestä mielipidemittauksesta ilmenee 9 eri numeroa  – 8 puolueen kannatusprosentit sekä ryhmä ”muut” – todennäköisyys sille, että ainakin yksi niistä on pielessä virhemarginaalia enemmän on 37 %. Todennäköisyys sille, että ainakin yksi joko Ylen tai Alma Median luvuista on virhemarginaalia kauempana todellisuudesta on jo 60 %, ja on lähestulkoon varmaa (todennäköisyys 99,6 %), että ainakin yksi Ylen vuoden aikana julkaisemista 12 mielipidemittauksista sisältää vähintään yhden kannatuslukeman, jonka todellinen arvo on virhemarginaalin ulkopuolella.

Yllä olevassa kuviossa on kuvattu se vaihteluväli jolle vihreiden ja perussuomalaisten todellinen kannatus Ylen ja Alma Median kannatusmittausten mukaan sijoittuu. Tavallinen, 95 prosentin luottamusväliin perustuva virhemarginaali on kuvattu täytettynä laatikkona, lisäksi katkoviivalla on osoitettu 99,7 prosentin luottamusväli (±3,0 keskihajontaa), jonka sisältä oikea arvo löytyy jo lähes varmasti.

Parikin prosenttiyksikköä on aika iso heitto kun puhutaan kymmenen prosentin tietämissä pyörivistä luvuista. Kuten ylempänä kuvatusta laskukaavasta ilmenee, virhemarginaalia olisi mahdollista pienentää otoskokoa kasvattamalla. Miksi näin ei tehdä mielipidemittausten tulosten tarkentamiseksi? Syy on yksinkertainen: raha. Virhemarginaalin puolittaminen vaatisi otoskoon nelinkertaistamista ja kustannukset kasvaisivat samassa suhteessa. Noin tuhannen vastaajan otos on vuosikymmenten saatossa päätetty tarkkuudeltaan median käyttöön riittäväksi kun otetaan huomioon myös mittausten teettämisen kustannus.

Lisäksi on syytä huomioida, että kaikki arvot virhemarginaalin sisällä eivät ole yhtä todennäköisiä. Virhemarginaalin olessa ±2,0 prosenttiyksikköä todellinen arvo on 68 prosentin todennäköisyydellä korkeintaan yhden prosenttiyksikön päässä keskiarvosta.

Alla oleva kuvio esittää vihreiden ja perussuomalaisten kannatuslukujen todennäköisyysjakauman. Todennäköisyys sille, että todellinen kannatusluku osuu kuvion keskellä olevalle tummennetulle alueelle on kussakin tapauksessa n. 4 % ja pienenee siitä etäännyttäessä. Kuvioelementtien kärjet kuvaavat 99,7 prosentin luottamusväliä.

Tämäkään kuvio ei silti vielä anna kovin hyvää vastausta siihen, mikä puolueiden todellinen kannatus on. Ylen yhden puolueen kannatukselle antama, kuviossa tummennettu todennäköisin arvo on aivan Alma Median todennäköisyysjakauman äärilaidalla ja päinvastoin.

Useamman mielipidemittauksen tulosten yhdistäminen

Usein tarkin tulos saadaan kun kahden tai useamman mielipidemittausten sisältämä tieto yhdistetään ja muodostetaan aineistosta uusi kuvio. Tähän on olemassa erilaisia tapoja. Maailmalla toimii useita mielipidemittausten tulosten yhdistelyyn erikoistuneita verkkosivustoja, joita kutsutaan mielipideaggregaattoreiksi (engl. poll aggregator). Ne ovat kehittäneet monimutkaisia, erilaisia paino- ja korjauskertoimia hyödyntäviä menetelmiään tarkoitukseen. Tunnetuin aggregaattoreista lienee FiveThirtyEight, jonka käyttämä malli pyrkii huomioimaan mm. joidenkin tutkimuksia tuottavien organisaatioiden taipumuksen systemaattisesti liioitella republikaanien tai demokraattien kannatusta. (Suomessa julkaistaan mielipidemittauksia niin harvakseltaan, ettei niiden aggregoinnista ole kehittynyt omaa journalismin lajiaan kuten esimerkiksi USA:ssa.)

Yllä olevassa kuviossa mielipidemittausten tulokset on yhdistetty kyselyiden vastaajamäärällä painotettuna, ilman muita kertoimia ja laskettu lopuksi uudet virhemarginaalit yhdistetyn vastaajamäärän mukaan. Laskelman perusteella vihreät olisi siis perussuomalaisia suositumpi, joskaan ei aivan yhtä pitkällä kaulalla kuin Ylen kyselyn alkuperäisten lukujen valossa. Tässä kaikkien puolueiden yhdistetyt luvut:

SDP 20,7 %
keskusta 19,9 %
kokoomus 17,3 %
vihreät 12,5 %
PS 10,3 %
vasemmistoliitto 8,2 %
RKP 4,7 %
KD 3,6 %
muut 2,9 %

Yhdistämiseen käyttämäni laskukaavat ovat hyvin yksinkertaisia:

jne.

Tällaisia yksinkertaisia kaavoja käyttäen laskelman tekeminen on helppoa, ja vaikka sillä onkin puutteensa verrattuna mielipideaggregaattorien käyttämiin hienostuneempiin malleihin, laskelman tulos kertoo kuitenkin puoluekannatuksesta enemmän kuin yksittäinen mielipidemittaus. Kun tämä ei ole tämän vaikeampaa, ihmettelen kyllä vähän, miksi media ei Suomessa vaikuta yhtään kiinnostuneelta tekemään puoluekannatuslaskelmia jotka perustuisivat useampaan kuin yhteen mielipidemittaukseen!

Virhemarginaali antaa liian ruusuisen kuvan mielipidemittauksen luotettavuudesta

Edellä esitetyissä laskelmissa ja mielipidemittauksen tutkimuksen virhemarginaalista puhuttaessa ylipäänsäkin lähdetään implisiittisesti siitä oletuksesta, että tutkimuksen otos on harhaton (engl. unbiased) tai ainakin, että otoksen mahdollinen vinouma on pystytty jollain tavalla oikaisemaan. Näin harvemmin todellisuudessa on.

Harhattomuus tarkoittaa sitä, että ainut tekijä joka vaikuttaa siihen, kenet populaatiosta poimitaan mielipidemittauksen tutkimusotokseen on sattuma. Jos nostamme erivärisiä palloja sisältävästä valtavasta pussista 1 121 palloa ja niistä 133 on vihreitä, voidaan virhemarginaalin laskentakaavaa käyttäen helposti selvittää, että kaikista pussissa olevista palloista on 95 prosentin todennäköisyydellä vihreitä 11,3–15,3 % (13,3 ± 2,0). Virhemarginaali kuvaa siis otantavirhettä (engl. sampling error), eli sitä, että satunnaisotantaan osuu harvoin aivan täsmälleen populaation sisäistä jakaumaa kuvaava joukko kohteita.

Mielipidemittauksiin vastaavat ihmiset eivät kuitenkaan ole yhtä helppo tutkimuskohde kuin pallot, vaan otantavirheen lisäksi tulosta vääristävät erilaiset otosharhat (engl. sampling bias):

  • Tutkimukseen ei ole käytännössä mahdollista poimia satunnaista joukkoa kaikista äänestysikäisistä suomalaisista, vaan otanta joudutaan tekemään esimerkiksi arpomalla haastateltavat numeropalveluun rekisteröityjen puhelinnumeroiden joukosta. Tutkimuksen otantakehikko (engl. sampling frame) on tällöin ne suomalaiset, joilla on julkinen puhelinnumero. Se ei ole täsmälleen sama joukko kuin kaikki äänestysikäiset suomalaiset, mistä johtuen kyselyyn sisältyy peittovirhe (coverage error).
  • Osalla suomalaisista on käytössään useampi kuin yksi puhelinnumero, joten heidän valikoitumisensa puhelinnumeroista arpomalla muodostettuun otokseen on keskimääräistä todennäköisempää. Jotkut taas voivat esimerkiksi vuorotyön vuoksi olla tutkimuksentekoaikana huonosti tavoitettavissa puhelimitse, jolloin heidän valikoitumisensa otokseen on vähemmän todennäköistä. Tällaisten syiden vuoksi puhelimitse tehtävään mielipidemittaukseen sisältyy myös valikoitumisharha (engl. selection bias).
  • Kaikki tutkimukseen valitut eivät syystä tai toisesta halua vastata kyselyyn. Varsinkin verkkokyselyissä vastauskato on yleensä iso ongelma ja sen aiheuttama vinouma (engl. non-response bias) potentiaalisesti suuri.

Otantavirheen ja erilaisten otosharhojen lisäksi tulosta vääristää vielä vastausharha (engl. response bias), joka on kattotermi erilaisille syille, joiden vuoksi osallistujien antamat vastaukset kyselyyn eivät aina täysin vastaa sitä, miten he todellisuudessa ajattelevat tai toimivat. Kaikki eivät esimerkiksi halua myöntää haastattelijalle kannattavansa rasistiseksi väitettyä puoluetta. Toisaalta haastateltava saattaa vastata eri kysymykseen kuin mikä häneltä on kysytty, esimerkiksi kuntavaalikannatusta koskevassa kyselyssä siihen, mitä puoluetta hän äänestäisi eduskuntavaaleissa.

Otantavirhe aiheuttaa mielipidemittauksen tuloksiin epätarkkuutta, jota voi pienentää otoskokoa kasvattamalla. Vinoutunut otos ja vastausharha sen sijaan vääristävät tuloksia usein tavoilla, joiden korjaaminen ei ole näin yksinkertaista. Jos esimerkiksi jonkin puolueen kannattajissa on enemmän vuorotöissä käyviä kuin muiden, tämän puolueen kannattajista valikoituu otokseen helposti todellista kannatusta pienempi osuus ja tämä vääristää puolueen kannatuslukuja.

Mielipidemittausten tekijät pyrkivät korjaamaan otosharhan aiheuttamaa virhettä esimerkiksi käyttämällä yksinkertaisen satunnaisotannan sijaan ositettua otantaa eli kiintiöpoimintaa (engl. stratified sampling), jolla huolehditaan siitä, että kaikkiin merkittäviin sosioekonomisiin ryhmiin (esim. miehet ja naiset, suomen- ja ruotsinkieliset) kuuluvien määrä otoksessa vastaa heidän osuuttaan väestössä. Tällaisista korjaavista toimista huolimatta mielipidemittausten tuloksiin sisältyy aina ilmoitetun virhemarginaalin lisäksi edellä mainittujen tekijöiden yhteenlasketun vaikutuksen aiheuttama metodologinen virhemarginaali. Termin kehittäjä Nate Silver arvioi yhdysvaltalaisissa mielipidemittauksissa sen olevan tavallisesti samaa suuruusluokkaa kuin tavallisen otantavirhemarginaalinkin. Tämä tarkoittaa, että karkeasti arvioiden yksittäisen mielipidemittauksen todellinen virhemarginaali voi olla kaksinkertainen ilmoitettuun nähden.

Tarinan opetus

Mielipidemittausten tuloksiin sisältyy runsaasti epävarmuutta. Todellinen virhemarginaali voi metodologiset tekijät huomioonottaen isoimpien puolueiden osalta olla kaksinkertainen tutkimuksen tekijän ilmoittamaan verrattuna ja osa todellisista kannatusluvuista voi löytyä jopa tämän laajemman virhemarginaalin ulkopuolelta. Niinpä reilusti virhemarginaalin sisään mahtuvat muutokset puolueiden kannatuksessa tai erot niiden keskinäisessä suosiossa ovat todennäköisemmin sattuman aiheuttamaa kuin merkki mistään todellisesta ilmiöstä, eikä niillä ole juurikaan uutisarvoa. Parempi käsitys puolueiden kannatuksesta saadaan, kun useampien mielipidemittausten tulokset yhdistetään.

Maarten Lambrechtsin mainio Rock ’n Poll -sivusto auttaa hahmottamaan, miten paljon otantavirhe vaikuttaa mielipidemittausten tuloksiin. Jokaisen politiikan toimittajan kannattaisi vilkaista sitä ennen kuin kirjoittaa uutisena, miten jonkin puolueen kannatus on muuttunut 0,4 prosenttiyksikköä edellisestä vertailusta.

Lisäkommentteja perussuomalaisten maahanmuuttoraportista käytyyn keskusteluun

Eilen julkaistua kirjoitustani perussuomalaisten ajatushautomon Suomen Perustan julkaisemasta, maahanmuuton vaikutuksia julkiseen talouteen käsittelevästä raportista Maahanmuutot ja Suomen julkinen talous on luettu ja jaettu kiitettävästi. Tätä kirjoittaessa sivulatauksia on kertynyt yli 12 000, millä määrällä juttu yltää blogimme historian luetuimmaksi. Maahanmuutto aiheena kiinnostaa mitä ilmeisimmin enemmän kuin vaikkapa Suomen karttakuvan kehitys. :)

Keskustelua kirjoituksesta on käyty mm. alkuperäisen artikkelin kommenttiosiossa. Raportin laatinut Samuli Salminenkin esitti joitakin kriittisiä huomautuksia tekemistäni tulkinnoista. Keskustelun sävy on ollut paikoin kipakka, mutta toistaiseksi jokseenkin asiallinen. Tänään Yle Uutiset teki myös nettijutun, jossa Salmiselta pyydettiin kommentteja esittämiini väitteisiin.

Käydyn keskustelun perusteella tulin siihen tulokseen, että on ehkä hyvä yrittää vielä tiivistää ja selkeyttää esittämiäni näkemyksiä, koska tuntuu että Salminenkaan ei aivan ole ymmärtänyt mihin kritiikkini kärki kohdistuu. Lisäksi kommenttiosiossa käydyn keskustelun myötä havaitsin erään minulta aiemmin huomaamatta jääneen seikan, joka vaikuttaa olennaisesti analyysiin.

Keskeneräisenä julkaistu selvitys on altis tulkintavirheille

Raportti on julkaistu ilmeisen keskeneräisenä. Vielä pari päivää ennen sen julkaisua perussuomalaisten Facebook-sivuilla julkaistiin video, jossa arveltiin, että torstaina joudutaan näyttämään eläinvideoita, koska selvitys ei valmistu ajallaan. Ilmeisesti paine saada jotain ulos johti siihen, että laajempi kokonaisuus pilkottiin kahteen osaan (raportin kakkososaa lupailtiin torstain tilaisuudessa julkaistavaksi tällä viikolla).

Ensimmäinenkään osa ei vaikuta aivan loppuun asti hiotulta. Esimerkiksi: ”Kaikki tutkimukseni merkittävimmät ja pääasialliset tulokset on on saatu 20–62-vuotiaista. 7–70-vuotiaiden vertailu oli sellainen kokeilu ja valmistelua elinkaarimallia varten”, sanoo Salminen Ylen haastattelussa. Hän on kuitenkin päättänyt otsikoida tätä kokeilua käsittelevän luvun ”Tulokset”, joten ei välttämättä ole pelkästään lukijan vika jos tämä erehtyy luulemaan, että nimenomaan tuo 7–70-vuotiaiden vertailu olisi tutkimuksen ydinainesta.

Jos tutkija itse olisi malttanut pitäytyä työikäisten vertailussa eikä ottaa 63–70-vuotiaita mukaan muutenkin kokonaisuudessa irralliselta tuntuvaan tutkimuksen lukuun 7, olisin ehkä minäkin lähestynyt aihetta toiselta kantilta. Nyt julkaistussa tekstissä on kaksi metodologisesti ja ikärajaukseltaan toisistaan poikkeavaa osiota, joiden keskinäinen suhde jää lukijalle epäselväksi ja altistaa väärintulkinnoille. (Tästä lisää tuonnempana.)

Alkuperäisessä kirjoituksessani oli kaksi pääpointtia:

  1. Koko aikusväestöä tarkasteltaessa Suomessa syntyneiden vaikutus julkiseen talouteen on huonompi kuin maahanmuuttajien
  2. Laskentatapa, joka tuottaa koko aikusväestön nettovaikutukseksi julkiseen talouteen –31,6 miljardia euroa kun todellisuudessa julkisen talouden alijäämä oli tarkasteluvuonna vain 2 miljardia on virheellinen

Käyn ne seuraavassa läpi Salmisen esittämän kritiikin valossa.

Koko aikuisväestöä tarkasteltaessa saadaan eri tuloksia kuin vain työikäisiä tarkasteltaessa

Salminen kritisoi tekemääni analyysiä Ylen haastattelussa näin: ”Koposen tekemässä vertailussa on myös se virhe, että hän on ottanut mukaan työikäisiä ja ei-työikäisiä.” Ei se ole mikään virhe, vaan toinen pääpointeistani.

Salmisen laskelma osoittaa – jos se on oikein tehty (ks. alempaa) – että työikäisen väestön keskuudessa maahanmuuttajien vaikutus julkiseen talouteen on huonompi kuin kantaväestön. Tätä en ole kiistänyt. Tämän tuloksen kiistämisen täytyisi perustua alkuperäisen datan uudelleenanalysoimiseen, ja kuten Salminen itse haastattelussa totetaa, hänellä on ollut käytössään ”rekisteriaineisto, jota ei ole ulkopuolisilla henkilöillä”. En ole ammatiltani tutkija, ja vaikka olisinkin, tällaisen analyysin tekemiseen menisi paljon enemmän aikaa kuin pääsiäsen pyhien luppohetket. Tulemme varmasti näkemään tulevaisuudessa erilaisia analyysejä työikäisten maahanmuuttajien aiheuttamista kustannuksista jotka joko vahvistavat tai kumoavat nyt julkaistun raportin tiedot, mutta minä jouduin olosuhteiden pakosta rajaamaan tarkasteluni sellaisiin kysymyksiin, joista on valmista dataa saatavilla.

Minun pointtini ei ollut, että työikäisten maahanmuuttajien tase olisi välttämättä jotain muuta kuin mitä Salminen sanoo, vaan nimenomaan että koko aikuisväestön tase on kantaväestöllä huonompi Salmisen omilla luvuilla laskettuna, koska kantaväestön ikärakenne on epäedullisempi kuin maahanmuuttajilla. Tämä selviää hyvin yksinkertaisella laskutoimituksella: otetaan Salmisen tutkimuksesta sivulta 82 löytyvästä taulukosta ulkomaalaisten ja suomalaisten nettovaikutukset henkeä kohden ja kerrotaan Tilastokeskuksen tietokannasta löytyvillä henkilömäärillä kotimaisten ja vieraiden kielten puhujien joukossa. Tämä luku voidaan vielä jakaa ihmisten kokonaismäärillä, jolloin saadaan keskimääräinen vaikutus henkeä kohden.

”Tämän henkilön kritiikin mukaan vertailuun voitaisiin ottaa vaikka mielivaltainen joukko 0–50-vuotiaat”, kritisoi Salminen Ylen haastattelussa. Eikä voitaisi. ”Kaikki aikuiset” ei ole mielivaltainen joukko. 

Nähdäkseni käyttämääni laskentatapaa kohtaan voidaan esittää kaksi perusteltua vasta-argumenttia:

  1. Tutkimuksen eläkeläisille lasketut luvut on laskettu 20–62-vuotiaille eläkeläisille, joten niitä ei voi käyttää yli 62-vuotiaiden eläkeläisten nettovaikutuksen arvioimiseen. Tämä on tietenkin periaatteessa ihan totta, mutta vanhempien eläkeläisryhmien nettovaikutus lienee pikemminkin 20–62-vuotiaita eläkeläisiä voimakkaammin negatiivinen pitempään kerrytetyn ja siten suuremman työeläkkeen, sekä suremman sairaanhoito- ja hoivapalvelujen tarpeen vuoksi. (20–62-vuotiaiden eläkeläisten ryhmässä on siis yli 62-vuotiaiden ryhmää enemmän ennenaikaiselle eläkkeelle jääneitä, joille ei ole kertynyt yhtä paljon työeläkettä kuin täyden työuran tehneille, ja vähemmän vanhustenhoidon palveluita tarvitsevia.) Jos käyttämäni laskentatapa siis vääristää tuloksia, se vääristää niitä luultavasti maahanmuuttajien kannalta epäedullisempaan suuntaan.
  2. Lasten jättäminen pois laskuista vääristää lukuja, koska lapset aiheuttavat julkisen talouden näkökulmasta vain kuluja ja maahanmuuttajilla on enemmän lapsia kuin kantaväestöllä. Tämäkin on sinänsä totta, mutta vaikutus on pieni. Laskisin mielelläni luvut koko väestölle, lapset mukaan luettuna, mutta se ei ole mahdollista käytössäni olevalla datalla. Lasten vaikutus ei ole kovin merkittävä, sillä itse asiassa ero ulkomaalaisten ja suomalaisten lapsimäärässä ei ole kovin suuri. Kotimaisten kielten puhujista 16,4 % on 0–14-vuotiaita, vieraiden kielten puhujista 18,0 %; eroa siis vain 1,6 %-yksikköä. (Vertailun vuoksi voidaan todeta, että eläkeläisiä on kotimaisten kielten puhujista 25,0 % ja vieraskielisistä 4,3 %; ero 20,7 %-yks.) Valistuneena arvauksena uskallan myös heittää, että yhden eläkeläisen nettovaikutus selvästi suurempi kuin yhden lapsen.

Salmisen laskutapa tuottaa absurdeja tuloksia

Kun Salmisen työikäiselle väestölle laskemat luvut laajennetaan koskemaan koko aikuisväestöä, saadaan koko väestön nettovaikutukseksi julkiseen talouteen –31,6 miljardia euroa.

Salminen kritisoi käyttämääni laskentatapaa blogin kommenttiosiossa näin:

Koponen esittää tutkimuksen sivun 82 keskiarvot oikein tekstissään. Jotta keskiarvoista saadaan oikeat summaluvut, ne pitää kuitenkin kertoa oikeilla henkilölukumäärille. Sivun 82 taulukon oikeat henkilölukumäärät on esitetty tutkimuksen liitetaulukossa 1 sivulla 97. Kertomalla sivun 82 taulukon keskiarvot liitetaulukon 1 henkilölukumäärillä päästään oikeisiin summalukuihin. Sen sijaan kertomalla sivun 82 taulukon keskiarvot joillain mielivaltaisilla henkilölukumäärillä, päästään sen sijaan ”absurdeihin lukuihin”, kuten Koponen tekee tekstissään.

Sivulla 82 ovat siis henkeä kohden lasketut nettovaikutukset ja sivulla 97 työikäisten (20–62-vuotiaiden) määrät. Tehdään Salmisen mieliksi laskelma, jossa sivun 82 luvut kerrotaan todellakin sivun 97 luvuilla.

Ensin ulkomailla syntyneet:

Opiskelijat Työlliset Työttömät Eläkeläiset Muut
henkeä 17 672 120 830 21 249 4 293 41 747
euroa/hlö –13 465 € +2 742 € –17 594 € –26 692 € –8 734 €
yhteensä –238,0 milj. € +331,3 milj. € –373,9 milj. € –114,6 milj. € –364,6 milj. €

Ulkomailla syntyneiden nettovaikutuksen loppusummaksi tulee –759,7 miljoonaa euroa, eli tuo paljon puhuttu 700 miljoonaa, joka näkyy kohteliaasti hieman pyöristetyn pienemmäksi perussuomalaisten puheissa.

Sitten suomalaiset. Jostain syystä suomalaisten kokonaismääriä eri ryhmissä ei sivun 97 taulukosta ilmene, vaan ainoastaan tutkimusotokseen sattuneiden määrät. Mutta eipä hätää, Tilastokeskuksen tietokannasta Väestö pääasiallisen toiminnan, sukupuolen, iän (1-v) ja vuoden mukaan 1987–2013 voidaan poimia kaikkien Suomessa asuvien määrät kohorteittain. Otetaan siis sieltä 20–62-vuotiaiden määrät vuonna 2011 ja vähennetään edellisestä taulukosta ilmenevät ulkomaalaisten määrät, niin saadaan suomalaisten luvut:

Opiskelijat Työlliset Työttömät Eläkeläiset Muut
henkeä 142 333 2 128 977 224 453 217 068 124 378
euroa/hlö –17 017 € +5 337 € –12 568 € –24 254 € –11 242 €
yhteensä –2 422,1 milj. € +1 1362,4 milj. € –2 820,9 milj. € –5 264,8 milj. € –1 398,3 milj. €

Suomalaisten yhteenlasketuksi nettovaikutukseksi saadaan –543,7 miljoonaa euroa.

Tämä on aivan yhtä absurdi lopputulos kuin alkuperäisen laskelmani –31,6 miljardia euroa, koska se tarkoitaa että työikäisen väestön nettovaikutus on kokonaisuutena negatiivinen (yht. –1,3 miljardia). Koska julkisen talouden sektoritilinpidon loppusumma oli vuonna 2011 –2 miljardia, ja pelkästään perus- ja esiopetuksen menot, muista lapsien aiheuttamista kustannuksista puhumattakaan olivat 2,5 miljardia, tämä tarkoittaisi, että yli 62-vuotiaiden eläkeläisten pitäisi maksaa keskimäärin enemmän veroja kuin mitä he saavat eläkkeitä ja julkisia palveluja, jotta summat menisivät tasan. Näin ei todellakaan ole, kuten jokainen hyvin ymmärtää.

On siis ilmeistä, että Salmisen käyttämä laskentatapa on pielessä, koska se hukkaa merkittävän osan tuloista johonkin.

Laskelma ei huomioi työnantajan eläkemaksuja

Blogin kommenttiosiossa käydystä keskustelusta hoksasin lopulta yhden merkittävän tuloerän, joka on laskelmasta jätetty pois: työnantajan eläkemaksut. Koska tutkimuksen 7-luvussa (joka on siis nimetty ”Tulokset”) sanotaan ”olen ottanut julkisen talouden nettovaikutuksia laskiessani mukaan tulopuolelle myös työnantajien maksamat eläkevakuutusmaksut”, oletin tietysti yksinkertaisena ihmisenä, että nämä eläkemaksut olisi huomioitu myös edeltävissä luvuissa, joissa arvioidaan nettovaikutuksia yksilötasolla. Näin ei tarkemmalla lukemisella kuitenkaan ole. Sivulla 25 tosiaan sanotaan:

Tutkimuksen ensimmäisessä osassa (toteutuneet julkisen talouden tulot ja menot) ei ole ilman erillistä mainintaa mukana työnantajien maksamia pakollisia eläkevakuutusmaksuja, sillä ne ovat tutkimuksen määritelmien kannalta hankalia, sillä niitä ei peritä henkilöiltä (palkansaajilta) itseltään. Lisäksi tutkimuksen ensimmäisessä osassa keskityn lähinnä työikäisten, 20–62-vuotiaiden väestöjen tutkimiseen, jolloin mukana on suurin osa työeläkejärjestelmän henkilöiltä saamista tuloista, muttei toisaalta menopuolta maksettujen eläkkeiden muodossa.

Pahoittelen, etten ensimmäisellä lukemisella havainnut tätä rajausta vaan erheellisesti kuvittelin, että työnantajan eläke- ja sosiaaliturvamaksut olisi otettu mukaan julkisen sektorin tuloina. Työeläkeyhtiöt luetaan Suomessa budjettitalouden näkökulmasta julkiseen sektoriin ja nämä maksut ovat jo määritelmällisestikin osa verokiilaa, joten Salmisen tekemä ratkaisu on poikkeuksellinen, ja riittää jo yksinään selittämään tuon ulkomaalaisten 759,7 miljoonan euron negatiivisen nettovaikutuksen.

Paljonko työeläke- ja sosiaaliturvamaksujen jättäminen pois vääristää tuloksia?

VATT:n raportista Maahanmuutajien integroituminen Suomeen ilmenee (kuvio 6b), että maahanmuuttajien keskimääräiset palkka- ja yrittäjätulot aikuista (15–70 v.) kohden olivat suuruusluokkaa 13 500 €/v. Tämä tarkoittaa yhteensä noin 3 miljardin summaa, josta voidaan arvioida maksetun Salmisen laskelmista puuttuvia eläke- ja sosiaaliturvamaksuja suunnilleen… 750 miljoonaa euroa!

Korostettakoon vielä, että vaikka työnantajan sosiaaliturvamaksut huomioitaisiin laskelmassa, alkuperäisestä n. 30 miljardin heitosta väestön laskennallisen nettovaikutuksen ja toteutuneen julkisen sektorin alijäämän välillä ne selittäisivät vain n. 17 miljardia. Vielä puuttuu 13 miljardia. Raportissa käytetty laskentatapa tuottaisi siis edelleen aivan liian synkkiä lukuja, vaikka sitä korjattaisiin huomioimaan kaikki verokiilan osat julkisen sektorin tuloina, kuten tietenkin pitäisi.

Kun kerran yhteisesti kulutetut hyödykkeetkin on pystytty jyvittämään eri väestöryhmille, niin eiköhän myös sellaiset tulotkin voida ottaa mukaan laskelmaan, joita ei pystytä suoraan kohdistamaan. Luontevaa olisi vaikka vähentää nämä tulot yhteisesti kulutetuista menoista ennen menojen jyvitystä.

tl;dr

Suomalaissyntyisten vaikutus julkiseen talouteen on henkeä kohden huonompi kuin maahanmuuttajien johtuen erilaisesta väestörakenteesta.

Jos rajataan tarkastelu vain työikäiseen väestöön, saattaa hyvin olla juuri niin kuin Salminen sanoo, eli että työikäisten maahanmuuttajien nettovaikutus on työikäistä kantaväestöä huonompi ja joidenkin maahanmuuttajryhmien erittäinkin huono. Tämä on itsessään kiinnostava tulos, jolla on myös poliittisia implikaatioita.

Salmisen laskelmasta puuttuu kuitenkin merkittävä tulopuolen menoeriä, mm. työnantajan eläkevakuutusmaksut, jonka vuoksi esimerkiksi Matti Putkosen useaan kertaan toistama väite maahanmuuttajien aiheuttamista 700 miljoonan vuosittaisista kuluista ei pidä paikkaansa.

Perussuomalaisten maahanmuuttoraportin loppusummat perustuvat silmänkääntötemppuun

Perussuomalaisten ajatushautomon laatiman selvityksen loppupäätelmä nojaa tarkoitushakuiseen väestörajaukseen, jolla vanhimmat ikäryhmät siivotaan pois tilastoista. Kun tarkasteluun otetaan aikusväestö kokonaisuudessaan, kantaväestön nettovaikutus julkiseen talouteen on raportin omilla luvuilla laskettuna maahanmuuttajia huonompi.

Perussuomalaisten ajatushautomo Suomen Perusta julkaisi ennen pääsiäistä maahanmuuton vaikutuksia julkiseen talouteen käsittelevän raportin Maahanmuutot ja Suomen julkinen talous. Tutkimus pyrkii selvittämään maahanmuuttajien aiheuttamat ”julkisen talouden nettovaikutukset”, eli paljonko jää loppusummaksi kun eri maahanmuuttajaryhmien tuottamasta taloudellisesta hyödystä vähennetään aiheutetut kustannukset.

Aivan alkajaisiksi täytyy kiittää raportin laatinutta Samuli Salmista hänen tekemästään mittavasta työstä. Selvitys lienee tähän mennessä yksityiskohtaisin Suomessa tehty yritys arvioida maahanmuuton kokonaiskustannuksia. Metodologisesti se on varsin läpinäkyvä ja helposti sellaisenkin henkilön arvioitavissa, joka ei ole kvantitatiivisen yhteiskuntatutkimuksen asiantuntija (esim. allekirjoittanut).

Harmi kyllä, tutkimuksen loppupäätelmänä mm. raportin julkistustilaisuudessa esitetty arvio – maahanmuutto kokonaisuutena aiheuttaa Suomelle 700 miljoonan vuosittaiset kustannukset, kun taas kantaväestön nettovaikutus henkeä kohden on lähellä nollaa – on saatu aikaiseksi tilastollisella silmänkääntötempulla.

Ikärajaus kaunistelee suomalaissyntyisten lukuja

Tutkimuksen alkuosassa käsitellään 20–62-vuotiaiden, ulkomailla syntyneiden aiheuttamaa nettovaikutusta henkeä kohden viidessä eri ryhmässä: työlliset, työttömät, opiskelijat, eläkeläiset ja muut. Luvussa 7 tarkastellaan eri maahanmuuttajaryhmien kokonaisvaikutusta ikäryhmässä 7–70-vuotiaat. Jälkimmäisessä tarkastelussa ovat mukana myös toisen polven maahanmuuttajat, eli ne joilla on ainakin yksi ulkomailla syntynyt vanhempi.

Tutkimuksessa käytetyistä ikärajauksista varsinkin 7–70 vuotta on epätavallinen, ja ongelmallinen kahdesta syystä:

Tilastokeskuksen avoimista aineistoista ei ole mahdollisuutta tehdä poimintaa etnisen taustan mukaan eri pääasiallisen toiminnan ryhmiin (opiskelijat, työlliset jne.) kuuluvien määristä näillä ikärajauksilla, eivätkä ne ole muissakaan suomalaisissa tutkimusjulkaisuissa kovin yleisiä. Yleisemmin käytetyn ikärajauksen (vaikkapa 15–64-vuotiaat) soveltaminen tekisi tutkimuksen tuloksista paremmin vertailukelpoisia muihin tilastoihin ja tutkimustietoon.

Varsinainen silmänkääntötemppu piilee kuitenkin siinä, että ikähaitarin katkaiseminen asteikon yläpäästä kaunistelee suomalaistaustaisten nettovaikutusta ulkomaalaistaustaisiin verrattuna dramaattisesti.

Suomessa asuu yli 1,1 miljoonaa yli 62-vuotiasta suomea, ruotsia tai saamea äidinkielenään puhuvaa, kun taas vieraskielisistä vain n. 10 000 kuuluu tähän ikäryhmään. Yli 70-vuotiaiden osalta vastaavat luvut ovat 620 000 ja 4 000. Käytännöllisesti katsoen kaikki yli 70-vuotiaat ovat eläkeläisiä ja raportin lukujen mukaan juuri eläkeläisten nettovaikutus julkiseen talouteen on kaikkein voimakkaimmin negatiivinen.

Eräs painavimmista työperäisen maahanmuuton puolesta esitetyistä argumenteista on, että Suomen väestö vanhenee jatkuvasti ja eläkeläisten määrä suhteessa työikäisiin kasvaa huolestuttavasti. Jättämällä laskuista 620 000 eläkeläistä tämä näkökulma saadaan kätevästi ohitettua, mutta kovin älyllisesti rehellisenä tällaista lähestymistapaa ei voi pitää.

Uusi laskelma perustuu raportin omiin lukuihin

Raportin sivulta 82 löytyy taulukko, jossa on laskettu kymmeneen suurimpaan maahanmuuttajaryhmään (syntymävaltion perusteella) kuuluvien julkisen talouden nettovaikutukset henkeä kohden:

Opiskelijat Työlliset Työttömät Eläkeläiset Muut
Somalia –21 208 € –2 998 € –17 740 € –32 609 € –15 945 €
Irak –15 462 € –4 174 € –20 842 € –21 786 € –14 944 €
Ruotsi –14 905 € 3 954 € –20 032 € –31 933 € –14 228 €
Ent. Jugoslavia –13 630 € 765 € –17 874 € –22 560 € –11 698 €
Turkki –11 953 € 1 048 € –15 974 € –18 005 € –9 225 €
Thaimaa –10 913 € –2 326 € –16 332 € –30 125 € –8 712 €
Ent. Neuvostoliitto –12 089 € 2 191 € –17 615 € –23 700 € –8 443 €
Viro –12 630 € 2 309 € –18 041 € –28 223 € –6 612 €
Kiina –10 473 € 3 374 € –13 710 € –26 723 € –5 089 €
Saksa –11 817 € 8 516 € –15 095 € –20 904 € –4 708 €
Kaikki ulkomaat –13 465 € 2 742 € –17 594 € –26 692 € –8 734 €
Suomi –17 017 € 5 337 € –12 568 € –24 254 € –11 242 €

Yhdistin tämän taulukon henkilöä kohden lasketut luvut Tilastokeskuksen avoimiin tietoihin eri ryhmiin kuuluvien määristä siten, että kaikki 15 vuotta täyttäneet otetaan mukaan. Laajensin tarkastelun samalla kaikkiin ulkomaalaisryhmiin ja selvitin, miten suomalaiset kunnat sijoittuisivat suhteessa niihin. Kunnista kerrotaan myös kuntatyyppi tilastollisen kuntaluokituksen mukaan ja perussuomalaisten kannatus viime kunnallisvaaleissa (2012). Näin syntynyt interaktiivinen visualisointi löytyy alta. (Visualisointi ei välttämättä näy oikein kaikilla vanhemmilla selaimilla.)

Haluan vielä erikseen korostaa, että kaikki visualisoinnin tiedot perustuvat perussuomalaisten omassa maahanmuuttoselvityksessä esitettyihin lukuihin (taulukko yllä) ja Tilastokeskuksen avoimiin aineistoihin.


Grafiikassa on sinisellä värillä korostettu ne kunnat, joissa perussuomalaisten kannatus oli kunnallisvaaleissa vähintään 20 %. (Kynnysarvoa voi muuttaa vasemman alakulman säätimellä.) Kansallisuus- ja kieliryhmistä korostettuina näkyvät ne, joille on Suomen Perustan selvityksessä laskettu omat luvut. Muiden ryhmien nettovaikutus on laskettu ”kaikki ulkomaat” -rivin lukujen perusteella.

Kun tarkasteluun otetaan koko 15 vuotta täyttänyt väestö, havaitaan että vieraskielisten vaikutus julkiseen talouteen on perussuomalaisten käyttämällä laskentatavalla negatiivinen (−5 804 €  henkeä kohden), mutta kotimaisten kielten puhujien vaikutus on vielä tätäkin negatiivisempi (−7 039 €). Koko eläkeläisväestön ottaminen mukaan tarkasteluun mielivaltaisen 70 vuoden ylärajan soveltamisen sijaan kääntää siis selvityksen alkuperäisen tuloksen päälaelleen: maahanmuuttajien vaikutus julkiseen talouteen on positiivisempi kuin suomalaissyntyisten.

Täsmennys 6.4. klo 16:55: 70 vuoden ikäraja ei ole täysin mielivaltainen, vaan ilmeisesti juontuu käytetystä aineistosta (Tilastokeskuksen yhdistetty työntekijä-työnantaja-aineisto, FLEED), joka sisältää vain 15–70-vuotiaat. Kun aineiston perusteella on kuitenkin pystytty laskemaan nettovaikutus henkeä kohden myös eläkeläisille ja etenkin kun yli 70-vuotiaita maahanmuuttajia Suomessa on vain n. 4 000, olisi jonkinlainen estimaatti voitu ja pitänyt tehdä myös yli 70-vuotiaiden ryhmälle.

Manner-Suomen kunnista vain noin kymmenesosa on nettovaikutukseltaan asukasta kohden vieraskielisten keskiarvoa parempi. Niistä kunnista, joissa perussuomalaisten kannatus oli kunnallisvaaleissa vähintään 20 % ei yksikään yllä vieraskielisten ryhmien keskitasolle ja vain yhden (Kaustinen) nettovaikutus on suomenkielisten keskitasoa positiivisempi.

Onko oikein arvottaa kuntia näin suoraviivaisesti pelkän asukasta kohden lasketun taloudellisen hyödyn mukaan? Pitäisikö eläkeläiset ja perussuomalaisten kannattajat ajaa pois maasta talouslukuja rumentamasta? Ei pitäisi. Ihmisarvoa tai vaikkapa kansallismaiseman arvoa ei mitata rahassa, eikä rahallinen mittari aina huomioi kunnolla kaikkea välineellistäkään hyötyä. Hyvin yksinkertaisena esimerkkinä jälkimmäisestä mainittakoon eläkeläisten apu lastenlasten hoidossa – tällä on hyvin konkreettinen merkitys kansantalouden kannalta, mutta sen täsmällinen hinnoittelu on työlästä, eikä sitä siksi yleensä laskelmissa huomioida.

Myöskään pakolaisia ei Suomeen oteta siksi, että he hyödyttäisivät julkista taloutta, vaan koska on oikein auttaa hädänalaisia. Perhesiteiden kautta maahamme tulevat taas ovat ennen kaikkea jonkun läheisiä ja vasta toissijaisesti työvoimaa ja veronmaksajia. Toki on järkevää pyrkiä hyödyntämään maassa jo asuvien taloudellinen potentiaali, mutta sitä tuskin voimme muuttaa, että juuri maahan saapuneet pakolaiset ovat julkisen talouden näkökulmasta vastakin menoerä. Ja mitä sitten? Niin ovat sairaat ja vanhuksetkin. Ei se tarkoita, että nämä ihmisryhmät pitäisi jättää oman onnensa nojaan.

Selvityksessä käytetty laskentatapa tuottaa absurdeja tuloksia

Työperäisen maahanmuuton kohdalla kysymys taloudellisista vaikutuksista on relevantti, eikä se toki merkityksetön ole muidenkaan maahanmuuttajaryhmien osalta. Harmillisesti on kuitenkin todettava, että perussuomalaisten selvitys ei anna maahanmuuton kustannuksista tai hyödyistä kunnollista kuvaa, koska käytetty laskentatapa on selvästi virheellinen.

Lähes kaikki etniset ryhmät jäävät raportin lukujen mukaan nettovaikutukseltaan selvästi pakkasen puolelle kun myös yli 70-vuotiaat otetaan mukaan laskelmaan. Ainut ryhmä, joka pääsee rimaa hipoen plussalle on Saksan kansalaiset (+12 €). Selvityksen lukujen perusteella voidaan laskea, että 15 vuotta täyttäneiden kotimaisten kielten puhujien yhteenlaskettu nettovaikutus julkiseen talouteen on –30,4 miljardia ja vieraskielisten –1,2 miljardia.

Tämä tarkoittaa sitä, että kaikkien Suomessa asuvien 15 vuotta täyttäneiden yhteenlaskettu nettovaikutus julkiseen talouteen on –31,6 miljardia. Tulos on täysin absurdi ja kertoo, että laskentatapa on pahasti pielessä. Julkisen sektorin alijäämä vuonna 2011 oli todellisuudessa vain 2 miljardia euroa. Käytetty laskentatapa hukkaa siis johonkin melkein 30 miljardia laskelman plussapuolelle kuuluvia eriä (tai liioittelee menoja).

Tästä n. 7 miljardia koostunee laskelmasta tietoisesti pois jätettyjen verojen kuten yhteisö-, kiinteistö-, perintö- ja varainsiirtoverojen osuudesta, mutta ne huomioidenkin laskelmaan jää ammottava aukko. Koko väestön yhteenlasketun nettovaikutuksen pitäisi suunnilleen vastata julkisen talouden sektoritilinpidon loppusummaa (–2 miljardia). Kun otetaan huomioon, että 0–14-vuotiaat tuottavat julkiselle sektorille pääosin menoja, yhteenlasketun nettovaikutuksen pitäisi yli 15-vuotiaiden osalta olla luultavasti jopa jonkin verran plussan puolella. Jos tuloja tai menoja ei pystytä kohdistamaan väestöryhmittäin, ne pitäisi jakaa koko väestön kesken jossain soveliaassa suhteessa, kuten tutkimuksessa on tehty esimerkiksi välillisten verojen ja kollektiivisesti kulutettujen palveluiden (esim. maanpuolustuksen) kohdalla, eikä jättää kokonaan pois, kuten nyt on tehty.

Lisäys 7.4. klo 12:02: Vaikuttaa siltä, että selvityksessä ei ole huomioitu työnantajan eläke- ja sosiaaliturvamaksuja ainakaan 20–62-vuotiaiden henkilöä kohden lasketuissa summissa. Tämä selittäisi noin 17 miljardia tuosta 31,6 miljardin aukosta. Rajaus on todella erikoinen, koska jos maksetut eläkkeet on kuitenkin laskettu mukaan menopuolelle niin totta kai eläkemaksut kuuluvat tulopuolelle. Se, että ne maksaa nimellisesti työnantaja, ei poista sitä että eläkemaksut ovat normaalimääritelmän mukaan osa verokiilaa.

20–62-vuotiaiden maahanmuuttajien ryhmässä työllisiä on selvityksen lukujen mukaan n. 120 000. Raportista ei ilmene, millainen maahanmuuttajien keskimääräinen palkkataso on, mutta tässä nopea laskelma siitä, paljonko työnantajan eläke- ja sosiaaliturvamaksuja tämän suuruiselta ryhmältä kertyisi eri keskimääräisillä kuukausipalkoilla:

• 1 500 €/kk: n. 550 milj. €/v.
• 2 000 €/kk: n. 750 milj. €/v.
• 2 500 €/kk: n. 900 milj. €/v.
• 3 000 €/kk: n. 1,1 mrd €/v.

Väite maahanmuuton 700 miljoonan vuosikuluista julkiselle sektorille näyttää siis perustuvan siihen, että laskelmassa on jätetty osa julkisen sektorin tuloista (eläke- ja sosiaaliturvamaksut) huomioimatta.

Vaikuttaa lähestulkoon siltä, että selvitystä varten on ensin kehitetty laskentatapa, jolla saadaan maahanmuuton kokonaisvaikutus painettua varmasti miinukselle, ja kun on huomattu, että se painaa suomalaissyntyisten loppusumman vielä maahanmuuttajiakin pahemmin pakkaselle, on korjausliikkeenä leikattu vanhimmat ikäluokat tarkastelusta pois. Tuskinpa tutkimuksen laatija sentään aivan näin häikäilemättömän tarkoitushakuisesti on toiminut, mutta kyllä lukujen käsittely pönkittää perussuomalaisten maahanmuuttopoliittista agendaa voimakkaammin kuin mihin niiden objektiivinen tarkastelu mielestäni antaisi aihetta.

Metodologia ja lähteet

Lopuksi vielä muutama sana itse tekemistäni valinnoista ja käytetyistä aineistoista.

Aineistoni ovat perussuomalaisten kannatuslukuja lukuun ottamatta samalta vuodelta (2011) kuin alkuperäisen selvityksen luvut. Kunnallisvaalien 2012 tulos valikoitui aineistoksi vuoden 2011 eduskuntavaalien sijaan, koska kunnallisvaaleissa vaalitulos on helposti saatavissa kunnittain kun taas eduskuntavaaleissa kuntakohtaiset tulokset pitäisi työläästi koostaa äänestysaluekohtaisia tietoja yhdistellen.

Suomen Perustan selvityksessä maahanmuuttotausta on määritelty henkilön tai hänen vanhempiensa syntymämaan mukaan. Tätä tietoa ei Tilastokeskuksen avoimista aineistoista löydy, joten olen käyttänyt visualisoinnissa sen sijaan tietoa pääasiallisesta toiminnasta kansallisuuden ja kielen mukaan. Kansallisuus vastannee siedettävällä tarkkuudella ensimmäisen sukupolven maahanmuuttajan syntymämaata ainakin tuoreemmissa maahanmuuttajaryhmissä ja kieli vuorostaan kertoo likimääräisesti ensimmäisen ja toisen sukupolven maahanmuuttajien kokonaismäärän (sikäli kun kieli voidaan yhdistää yksittäiseen taustamaahan).

Niiden etnisten ryhmien osalta, joille raportissa on laskettu omat luvut (taulukko s. 82), olen käyttänyt näitä lukuja. Muiden osalta laskelman pohjana ovat olleet ”kaikki ulkomaat” -ryhmän luvut. Kielten osalta olen hyödyntänyt tietoa Suomessa asuvien eri kielten puhujien alkuperämaista; esimerkiksi suurin osa Suomen albaniankielisistä on kotoisin entisestä Jugoslaviasta vaikka kieltä puhutaan myös Albaniassa, joten tämän kieliryhmän laskelmassa on käytetty entisen Jugoslavian lukuja. Sen sijaan esimerkiksi arabian puhujat ovat kotoisin useista eri taustamaista, joten tämän ryhmän osalta laskelma perustuu ”kaikki ulkomaat” -ryhmän lukuihin. Tästä säännöstä hieman poiketen ruotsinkielisille on käytetty Suomessa syntyneiden lukuja ja saksankielisille Saksassa syntyneiden. Ruotsin kansalaisille sen sijaan on käytetty Ruotsissa syntyneiden lukuja.

Lähteenä on käytetty Maahanmuutot ja Suomen julkinen talous -raportin lisäksi seuraavia Tilastokeskuksen avoimesta StatFin-tilastotietokannasta löytyviä aineistoja:

Koostetiedosto csv-muodossa löytyy täältä.

Kirjoitin myös jatkoartikkelin aiheesta.

Eurovaalien kovin kilpailu käytiin vihreiden ja demarien välillä

Eurovaalituloksen ensimmäisissä analyyseissä on noussut vahvasti esiin arvio, että viime eurovaaleihin nähden huonosti menestyneet vihreät menettivät ääniä ennen kaikkea hallitusvastuusta keväällä luopuneelle vasemmistoliitolle. Koko maan lukuja katsoessa tämä on houkutteleva tulkinta, olihan vasemmiston vaalivoitto suunnilleen vihreiden tappion suuruinen.

Ilmeisin selitys ei kuitenkaan välttämättä pidä paikkaansa tarkemman analyysin valossa. Jos vihreät olisivat menettäneet äänestäjiään ennen kaikkea vasemmistoliitolle, tämän pitäisi näkyä äänestysaluekohtaisessa tarkastelussa niin, että vihreiden tappio olisi suurin niillä alueilla joissa vasemmisto on onnistunut houkuttelemaan eniten äänestäjiä. Näin ei kuitenkaan näyttäisi olevan.

Tein vertailun sunnuntain eurovaalien ja vuoden 2012 kunnallisvaalien tuloksesta äänestysalueittain. (Vertailu edellisiin eurovaaleihin ei onnistu yhtä helposti, koska ainakaan vielä tätä kirjoittaessa oikeusministeriö ei ole julkaissut vuoden 2009 äänestysaluekohtaisia tuloksia yhtä kätevässä kootussa koneluettavassa muodossa kuin vuoden 2012 kuntavaaleista ja 2014 eurovaaleista on saatavilla. Tieto on sinänsä saatavilla ja ajan salliessa koitan myöhemmin ottaa sen mukaan analyysiin.) Satunnaisvaihtelun karsimiseksi otin mukaan vain sellaiset äänestysalueet, joilla molemmissa vaaleissa oli annettu yhteensä vähintään tuhat ääntä.

Käytin korrelaation mittarina helposti laskettavaa Pearsonin korrelaatiokerrointa, joka ei välttämättä ole paras mahdollinen tilastollinen analyysimenetelmä, mutta olen sen oheen tehnyt myös interaktiivisen grafiikan, jonka avulla lukija voi itse arvioida, kertovatko pelkät numerot koko totuuden vaalituloksesta.

Grafiikassa voi valita vaaka- ja pystyakselille yhden kahdeksasta isoimmasta eduskuntapuolueesta, muiden puolueiden yhteisen äänisaaliin tai yleisen äänestysaktiivisuuden. Akselien arvot ovat siis muutoksia puolueen kyseisen äänestysalueen äänistä saamassa prosenttiosuudessa vuoden 2012 kuntavaalien ja viime sunnuntain eurovaalien välillä. Renkaiden värit viittaavat vaalipiiriin. Tarkemmat tiedot äänestysalueesta saa viemällä hiiren sitä kuvaavan renkaan päälle.

Jos vaaka- ja pystyakselille valittujen puolueiden vaalituloksen välillä on vahva yhteys niin, että toinen on selvästi vienyt ääniä toiselta, äänestysalueita kuvaavien renkaiden muodostaman pistepilven pitäisi muodostua kuvion lävistäjän ympärille. Vaaka- tai pystysuuntainen pilvi viittaa siihen, ettei yhteyttä puolueiden vaalimenestyksen välillä ole. (Tällaista kuviotyyppiä kutsutaan parvikuvioksi.)

Vihreiden ja vasemmistoliiton vaalimenestystä kuvaava kuvio on voimakkaasti pystysuuntainen, joka tarkoittaa, että vihreiden ääniosuus on vaihdellut paljon edellisistä vaaleista äänestysalueesta riippuen, kun taas vasemmistoliitto on parantanut ääniosuuttaan keskimäärin melko tasaisesti eri puolilla maata. Vahvaa yhteyttä ääniosuuden muutoksien välillä ei näy, korrelaatiokerroin saa arvon r = –0,15 jota ei voi pitää kovin suurena.

Sen sijaan vihreiden ja SDP:n vaalimenestyksen välillä näkyy huomattavasti vahvempi yhteys, r = –0,48. Vihreiden menestys korreloi melko voimakkaasti myös äänestysaktiivisuuden muutoksen kanssa: r = –0,41. Nopea tulkinta on, että SDP on menettänyt äänestäjiään vihreille, mutta vihreät toisesta päästä nukkuvien puolueelle. (Korjaus: Ensimmäisessä versiossa tähän oli lipsahtanut ajatusvirhe. Jos vihreät olisi menettänyt ääniä ennen kaikkea äänestysaktiivisuuden laskun kautta, korrelaatiokertoimen pitäisi olla positiivinen. Nyt tilanne on päin vastoin niin, että vihreät ovat erityisesti menestyneet niillä äänestysalueilla joilla äänestysaktiivisuus laski paljon kuntavaaleihin verrattuna.) Muitakin potentiaalisia selityksiä luvuille varmasti löytyy, mutta selkeästi yhteys vihreiden ja demarien äänimenestyksen välillä on paljon vahvempi kuin vihreiden ja vasemmiston välillä.

Muiden puolueiden vaalituloksen väliltä ei löydy yhtä vahvoja yhteyksiä. Vahvimmat yksittäiset taisteluparit ovat RKP & kokoomus (r = –0,29) ja perussuomalaiset & kokoomus (r = –0,30). Mielenkiintoinen yllätys on myös vasemmistoliiton ja keskustan pieni kilvoittelu (r = –0,23). Vasemmiston tuore meppi Merja Kyllönen menestyi erinomaisesti juuri Pohjois-Suomessa ja kilpaili äänistä varmasti paljon esimerkiksi Paavo Väyrysen kanssa.

Grafiikassa on vielä pieniä teknisiä virheitä, mutta sen muodostama yleiskuva lienee oikea. Eri asia on kuinka pitkälle meneviä johtopäätöksiä lukujen perusteella voi vielä tehdä. Kuntavaalit ja eurovaalit ovat luonteeltaan erilaisia ja äänestäjät saattavat valita puolueensa näissä vaaleissa kovinkin eri perustein. Toimikoon tämä kuitenkin pienenä datajournalistisena keskustelunavauksena vaalituloksen syvempään analyysiin. Lukijoilla on myös epäilemättä paljon kommentteja valittuihin analyysimenetelmiin ja grafiikan toteutukseen, jotka koitan sitten parhaani mukaan huomioida sitten seuraavassa versiossa. :)

Lisäys 28.4.: Työkaluun on nyt lisätty mahdollisuus tarkastella aiemman ääniosuuden absoluuttisen muutoksen (%-yksikköä) myös äänimäärän absoluuttista muutosta (kpl) sekä ääniosuuden suhteellista muutosta (% suhteessa kuntavaaleihin). Absoluuttisten äänimäärien tarkastelu tarjoaa heikompia korrelaatioita kuin aiempi ääniosuuden muutos, mutta edelleen vihreiden vahvin korrelaatio säilyy nimenomaan demareihin ja vihreät on myös ainut puolue jonka kanssa SDP:n tuloksella on selvästi nollasta poikkeava negatiivinen korrelatio, vaikka kerroin onkin pieni (r = –0,26). Vihreiden ja vasemmistoliiton valtakunnallinen korrelaatio on edelleen heikko. Vihreiden vahvimmilla alueilla Helsingissä ja Uudellamaalla vasemmisto näyttäisi ehkä jonkin verran rokottaneen vihreiden tulosta, mutta vihreiden tappio absoluuttisissa äänissä mitattuna on suurempi kuin vasemmiston voitto.

(Huomautettakoon että absoluuttisen äänimäärien vertaaminen äänestysaktiivisuuteen – joka tässä on annettujen äänten määrän prosentuaalinen lasku kuntavaaleista, ei muutos prosenttiyksikköinä – ei anna järkeviä tuloksia, koska äänestysaktiivisuuden ja isojen puolueiden absoluuttisen äänimäärän korrelaatio on suuri ja pienten puolueiden pieni johtuen ihan siitä miten korrelaatio lasketaan.) Itse asiassa näin ei ole, vaan absoluuttisten äänimäärien vertailu äänestysaktiivisuuteen paljastaa että vihreät ja RKP kärsivät vähiten laskeneesta äänestysaktiivisuudesta, kun taas muiden puolueiden tulos korreloi positiivisesti äänestysaktiivisuuden muutoksen kanssa.

Kiitokset taas seminaarivieraille!

Tieto näkyväksi -seminaarimme järjestettiin 20.9. toisen kerran. Paikka oli jälleen Kauppakorkeakoulun suuri juhlasali. Kuten viime vuonna käyneet muistavat, ensimmäinen seminaari oli satelliittitapahtuma OKFestivalille, jossa osa järjestäjistä oli myös pitämässä ohjelmaa. Tämänvuotinen pidettiin itsenäisenä tapahtumana, joka järjestettiin Aallon ja sponsorien voimin. Osa viimevuotisista kävijöistämme saapui festivaalin lippuvaihtojärjestelyn kautta, ja muistan kesällä miettineeni, saammeko tällä kertaa vastaavasti yleisöä ilman suuremman tapahtuman tuomaa vetoa. Huoli oli turha, sillä tapahtuma myytiin loppuun.
Koska ohjelmaa oli kahdella kielellä, päätimme tänäkin vuonna jakaa tapahtuman aamu- ja iltapäivän osioihin, joista ensimmäinen oli suomeksi ja toinen englanniksi. Tapahtuman videotaltioinnista ja striimauksesta kiitämme Aleksi Mustosta, joka laittoi ohjelman nähtäväksi Bambuser-palveluun.

Kyyriainen_7646

Kun vieraat olivat istuutuneet, seurasi avajaispuheenvuoro. John Nurmisen säätiön hallituksen puheenjohtaja, merenkulkuneuvos Juha Nurminen osoittautui todelliseksi asiantuntijaksi puheessaan karttojen ja visualisointien yhteiskunnallisesta vaikuttavuudesta. Esityksessä oli uutta ja kiinnostavaa tietoa kartografian historiaakin tunteville. Nykyajan esimerkki oli kuva Itämeren levätilanteesta, joka tekee selväksi ympäristöongelman laajuuden. Puhdas Itämeri -hankkeeseen voi tutustua projektin sivuilla.

Hannu Kyyriäinen on infografiikkaan erikoistunut graafinen suunnittelija. Hänen työnsä Suomen Kuvalehdessä on maamme mittapuulla poikkeuksellisen korkeatasoista ja monimuotoista. Hänen visualisointinsa Palestiinan aluemenetyksistä sijoittui pronssisijalle arvostetussa Malofiej-kilpailussa aiemmin tänä vuonna, ja esityksessään hän kävi läpi monia muitakin mielenkiintoisia töitään. Niihin voi perehtyä tarkemmin hänen Flickr-sivuillaan.

Vaajakallio_7711
Kirsikka Vaajakallio esittelee haastatteluaineistoa

Kirsikka Vaajakallio on palvelumuotoilija, jonka työtapa on yhteissuunnittelu. Siihen kuuluu tuotteen tai palvelun varsinaisen käyttäjän mukaan ottaminen jo suunnitteluprosessin alkuvaiheissa. Saman tavan soisi yleistyvän myös tiedon esittämisessä, sillä kokeneinkin suunnittelija ei vain tule ajatelleeksi kaikkia yleisön tarpeita. Esityksessään Vaajakallio kertoi joistakin käyttämistään työskentelymenetelmistä, joista ehkä kiinnostavimpia olivat suunnittelupelit. Ne ovat tilanteeseen räätälöityjä seurapelejä, joiden avulla suunnitelutyöhön tottumattomat voivat jakaa ideoitaan helpommin.

Markku Mikkola-Roos on Suomen ympäristökeskuksen biodiversiteettiyksikön vanhempi tutkija, joka on erikoistunut lintujen suojeluun. Hänen puheenvuoronsa käsitteli tunnistusoppaita perinpohjaisella tavalla. Olin itse yllättynyt, kuinka vanhoja monet alan konventiot ovat. Historialliseen läpikäyntiin kuului tietenkin myös arvio nykytilanteesta. Siinä kävi ilmi, kuinka valokuvia käyttävillä oppailla on omat rajoituksensa piirrettyihin havainnekuviin verrattuna.

Peltomaki_7867
Tuomas Peltomäki kertoo verkostojen hienoudesta

Datajournalisti Tuomas Peltomäki esitteli puheenvuorossaan seikkaperäisesti suomalaista lobbausverkostoa esittävää visualisointityötään. Twitterissä esitystä luonnehdittiin stand-upiksi, ja siinä oli myös omasta mielestäni terävää ja mukaansatempaavaa huumoria. Työhön vaadittu datamäärä oli päätähuimaava ja sen käsittely vaati uusien työtapojen kehittämistä ja vanhojen soveltamista. Visualisointiin ja sen materiaaleihin voi tutustua Peltomäen verkkosivuilla.

Ohjelman viimeinen suomenkielinen puhuja oli valokuvaaja ja filosofian tohtori Leena Saraste. Hänen aiheensa koski valokuvan totuusarvoa ja sen mielikuvia muokkaavaa voimaa. Ajatus valokuvasta todisteena ja ilmaisuvälineenä on ristiriitainen ja siksi kiinnostava. Monet ajatukset ja lainaukset olivat provosoivia, kuten väittämä ”ihmiset haluavat tulla petetyiksi”. Näiden tukena oli mielenkiintoisia esimerkkejä ikonisista ja myös vähemmän tunnetuista valokuvista, joiden aihe ja ilmaisutapa olivat tarkkaan harkittuja. Kuvista ei näe, mitä on todella tapahtunut, sillä totuus ei löydy niistä itsestään.

Tauon jälkeen alkoi englanninkielinen osuus, jonka avasi Svenska Dagbladetin graafinen journalisti Thomas Molén. Hänen kuuluisin työnsä lienee Malofiej-kilpailussa pääpalkinnon saanut grafiikka euroviisujen äänestyskäyttäytymisestä. Molén on infografiikkanörtti ja ylpeä siitä. Esityksessä näkyi helposti nörttimäisten piirteiden etu hyvän infografiikan tekemisessä. Kun mielenkiinto syttyy helposti ja tekijällä on luontainen kyky syventyä sekä kiinnostusta teknologiaan, lopputulos on myös lukijalle syvempi ja mielenkiintoisempi.

Rees_8019
Kim Rees

Ensimmäinen Keynote-puhujamme oli yhdysvaltalaisen Periscopic-suunnittelutoimiston perustaja Kim Rees. Toimisto on tunnettu visuaalisista datatarinoistaan, joita yritykset, järjestöt ja julkinen sektori tilaavat esittämään toimintaansa ja tavoitteitaan.
Periscopicin tunnuslause on do good with data. Töiden aiheet ovat yhteiskuntaan, terveyteen ja ympäristöön liittyviä ja ne herättävät voimakkaita tunteita. Etenkin asekuolemien takia varastetuista vuosista kertova esitys oli vähäeleisyydestään huolimatta (tai ehkä juuri sen takia) koskettava. Kerronnallisesta ja tunteita herättävästä puolestaan huolimatta hyvän visualisoinnin on pohjattava todellisuuteen, ja mieleenpainuvien esitysten vahvuus on niiden rehellisyydessä. Läpinäkyvä data tekee esittäjän haavoittuvaksi, mutta rakentaa luottamusta.

Lounastauko oli tänä vuonna erityisen pitkä, sillä sali piti antaa hetkeksi valmistujaistilaisuuden käyttöön. Toisaalta tämä oli hyväkin asia, sillä tiiviit esitykset herättivät ajatuksia ja niitä oli mukava sulatella muiden kävijöiden kanssa.

Cairo_8173

Ohjelma jatkui toisella keynote-puheenvuoroistamme, jonka piti espanjalainen Alberto Cairo. Hän on pitkän linjan graafinen journalisti ja valistaja, jonka kirja The Functional Art on luultavasti tämän hetken paras teos informaatiomuotoilun tekemisestä. Cairon esitys oli perusteellinen läpikäynti siitä, mitä todella laadukkaan visualisointityön tekeminen vaatii. Eräs hänen keskeisistä viesteistään on, että kuvallisen esityksen tekijä ei ole tietoa koristeleva käsityöläinen vaan sisältöön paneutuva viestinnän ammattilainen, jolla on journalistinen vastuu. Lukijan ymmärrys voi olla seurausta ainoastaan tekijän ymmärryksestä.
Graafisen journalistin työ on suuressa määrin myös ryhmätyötä muiden viestinnän tekijöiden sekä asiantuntijoiden kanssa. Tapausesimerkeissä tuli esille, kuinka asiantuntijan kuuleminen lisää uusia ulottuvuuksia ja syvyyttä esitykseen. Toivoisin, että meillä Suomessa annettaisiin useammin puitteet tehdä tällä tasolla datalöhtöistä kuvallista journalismia.

Päivän viimeinen puhuja oli alankomaalainen informaatiomuotoilija Frédérik Ruys. Cairon tavoin hän painotti ymmärryksestä syntyvän oivalluksen merkitystä työssään (lainaamallaan termillä infogasm). Ruys esitteli vaikuttavan ja työlään hankkeen Nederland van Boven (Alankomaat ilmasta), joka on televisioon tuotettu dokumenttisarja. Siinä yhdistetään taitavasti kuvattua ilmakuvaa huolellisesti tutkittuun informaatiomuotoiluun tavalla, joka antaa arkielämän ilmiöistä uuden kuvan. Visualisoinneissa esitettiin hälytysajoneuvojen liikettä päivän aikana ja valtamerialusten liikennettä Euroopan vilkkaimpaan satamaan. Kiehtovin esimerkki oli kuitenkin haikaran päivän aikana tekemä lentoreitti, jossa näkyy kuinka lintu käyttää ihmisen toimintaa ja rakennettua ympäristöä hyväkseen.
Hiottu lopputulos vaati runsaasti taustatyötä ja useita ideoita oli hylättävä, koska visualisointi ei sopinut välineen kerronnallisiin vaatimuksiin. Visualisointien tekijänä oli mielenkiintoista seurata, kuinka usean osa-alueen pallottelu nopean työprosessin aikana onnistui näinkin sujuvasti.

ulkoa_7742

Haluamme kiittää kaikkia seminaarivieraitamme kiinnostuksestanne ja hyvistä kysymyksistä. Lisäksi kiitos kuuluu myös muille järjestelyssä auttaneille sekä sponsoreille. Oli jälleen haastavaa ja palkitsevaa suunnitella ohjelma, joka olisi yhtä monipuolinen kuin yleisömme.

Valokuvat: Pekka Niittyvirta

Kuntavaaleissa oli vain häviäjiä

Kuntavaalien vaalistudiota katsellessa vaikutti siltä, että liki jokaisen puolueen puheenjohtaja oli sitä mieltä, että juuri hänen puolueensa selviytyi näistä vaaleista voittajana: suurin ääniosuus, eniten valtuutettuja, pienin pudotus ääniosuudessa, liikkuvaan junaan hypänneeltä uudelta puheenjohtajalta huima tulos… Käytännön politiikan teon kannalta valtuustopaikat ratkaisevat ja siinä valossa moni näistä selityksistä voi olla järkeenkäypä. Jos kuitenkin katsotaan eri puolueiden kansalaisilta saamaa mandaattia, voi todeta, ettei näissä vaaleissa ollut kuin häviäjiä.

Vaalien äänestysprosentti, 58,2 %, on aivan surkea. Puolueet paukuttelevat nyt henkseleitään kun ovat saaneet ison siivun pienestä kakusta. Mutta kun katsotaan kuinka moni äänestäjä antoi kullekin puolueelle äänensä, lopputulos on että mikään, siis mikään puolue ei onnistunut keräämään lisää äänestäjiä verrattuna sekä edellisiin kuntavaaleihin 2008 että viimeisimpiin vaaleihin, jotka olivat siis vuoden 2011 eduskuntavaalit. (Presidentinvaaleja en pidä vertailukelpoisena koska niissä puoluetaustan rooli on vähäisempi.) Perussuomalaiset paransivat kyllä äänisaalistaan viime kuntavaaleihin verrattuna, mutta eduskuntavaaleihin verrattuna puolueen äänestäjien määrä on lähes puolittunut.

Oheiseen taulukkoon ja sen lukujen pohjalta laadittuun grafiikkaan on listattu nämä madonluvut. (Luvut on painotettu kussakin vaalissa äänioikeutettujen määrän mukaan, eli tarkalleen ottaen ilmoitettu muutos on puolueen saamassa osuudessa kaikkien äänioikeutettujen äänistä, ei absoluuttisissa äänimäärissä.)

muutos 2008– muutos 2011–
Kokoomus –11,4 % –12,1 %
SDP –12,5 % –16,1 %
Perussuomalaiset +58,7 % –47,0 %
Keskusta –11,8 % –3,0 %
Vihreät –9,4 % –3,7 %
Vasemmistoliitto –13,4 % –19,4 %
RKP –4,7 % –9,6 %
Kristillisdemokraatit –15,2 % –24,1 %
Suomen Työväenpuolue –27,5 % –72,8 %
Itsenäisyyspuolue –13,8 % –60,8 %
Köyhien Asialla –47,8 % –58,8 %
Piraattipuolue –61,8 %
Vapauspuolue –99,7 %
Muutos 2011 –83,8 %
Suomen Kommunistinen Puolue –22,1 % +17,1 %
Kommunistinen Työväenpuolue –35,5 % –56,7 %
Muut ryhmät –37,4 % +83,5 %

Ainoat puolueet, joiden saama äänimäärä on laskenut alle kymmenyksellä molemmista vertailuvaaleista ovat vihreät ja rkp ja nekin vain juuri ja juuri. Eipä ole hurraamista.

Kyllä poliitikoilla on tässä iso peiliin katsomisen paikka. Koko demokraattisen järjestelmämme legitimiteetti on koetuksella, jos tällainen kehitys jatkuu.

______________________________

Lisäys 29.10.2012 

Tässä vielä painottamattomat luvut, eli siis muutokset puolueiden saamien äänten kappalemäärissä. Yleiskuva säilyy aika pitkälti samana. Keskusta ja vihreät ovat nollatuloksessa edellisiin eduskuntavaaleihin verrattuna ja kaikki miinusprosentit pienenevät hieman painotettuihin lukuihin verrattuna, mutta aika surkealta tulos näyttää näinkin arvioituna.

muutos 2008– muutos 2011–
Kokoomus –9,1 % –9,1 %
SDP –10,1 % –13,2 %
Perussuomalaiset +61,5 % –45,1 %
Keskusta –9,4 % +0,3 %
Vihreät –7,0 % –0,4 %
Vasemmistoliitto –11,1 % –16,6 %
RKP –2,1 % –6,5 %
Kristillisdemokraatit –12,9 % –21,5 %
Suomen Työväenpuolue –25,6 % –71,8 %
Itsenäisyyspuolue –11,5 % –59,5 %
Köyhien Asialla –46,4 % –57,5 %
Piraattipuolue –60,4 %
Vapauspuolue –99,7 %
Muutos 2011 –83,2 %
Suomen Kommunistinen Puolue –20,1 % +21,1 %
Kommunistinen Työväenpuolue –33,8 % –55,2 %
Muut ryhmät –35,7 % +88,1 %

Potilastietojärjestelmähankkeen kustannusten mittakaava

Informaatiomuotoilu.fi tuo oman panoksensa sosiaalisessa mediassa viime päivinä kuumana käyneeseen keskusteluun Suomeen hankittavaksi suunnitellusta potilastietojärjestelmästä. Hankkeeseen liittyy paljonkin erilaisia merkittäviä kysymyksiä, joita esimerkiksi helsinkiläinen kunnallisvaaliehdokas Otso Kivekäs on tuonut esiin blogissaan. (Full disclosure: olen itse mukana Otson kunnallisvaalikampanjan tukiryhmässä.) Me keskitymme niistä kuitenkin vain yhteen eli hankkeen arvioituihin välittömiin kustannuksiin.

Konsulttiyhtiö Accenturen Sitralle laatimassa selvityksessä on arvioitu, että hankinnan kokonaisarvo olisi 1,2–1,8 miljardia euroa jos ja kun järjestelmä otettaisiin käyttöön kaikissa Suomen sairaanhoitopiireissä. Tämä on valtava summa. Esimerkiksi Kirsi Louhelainen, myös kunnallisvaaliehdokas (Espoossa), vertasi summaa NASA:n avaruussukkulaohjelman tietojärjestelmän kustannuksiin. Esa Heiskanen vuorostaan laski, että 1,8 miljardilla saisi suomalaisilta it-yrityksiltä hankittua työtä noin 14 000 henkilötyövuoden verran. Esimerkiksi Microsoftin Windows 7 -käyttöjärjestelmää oli kehittämässä joidenkin arvioiden mukaan 2 000 ohjelmoijaa noin kolmen vuoden verran. Vaikka ohjelmistoprojekteissa työvoiman lisääminen ei takaa parempia tuloksia vaan usein päinvastoin, antaa jotain käsitystä hankkeen kaavaillusta mittakaavasta että siihen ollaan potentiaalisesti investoimassa enemmän työtä kuin kokonaisen käyttöjärjestelmän kehittämiseen.

Helpoiten mittakaavan hahmottaa kuitenkin visuaalisesti. Seuraavassa potilastietojärjestelmän ennustettu 1,2–1,8 miljardin kokonaiskustannus on suhteutettu muutamiin poliittisessa keskustelussa intohimoja herättäneisiin valtion ja pk-seudun kuntien menoeriin.

Jos suunniteltu hanke onnistuu kaikissa tavoitteissaan, 1,8 miljardin investointi on toki hyvin perusteltu. Mm. valtiontalouden tarkastusvirasto on kiinnittänyt huomiota siihen, että käyttäjäystävällisemmät ohjelmistot toisivat mittavia säästöjä terveydenhuoltoon. Mutta kuinka todennäköistä on, että hanke todella onnistuu kaikissa tavoitteissaan? Ainakaan se ei ole itsestäänselvää. Toisessa vaakakupissa on se riski, että hanke voi myös epäonnistua todella pahasti, myös taloudellisesti.

Jos katsotaan muutamia otsikoissa olleita julkishallinnon it-hankkeita, ei vaikuta kovinkaan tavattomalta että alkuperäiset kustannusarviot ovat osoittautuneet melko optimistisiksi:

Hanke Alkup. kust.arvio Viimeisin kust.arvio Ylitys
Valtionhallinnon dokumentinhallinta ja arkistointi -hanke (VALDA) 5,5 milj. € 9 milj. € 64 % Lähde 1, 2
Ulosoton tietojärjestelmähanke 6 milj. € 16 milj. € 167 % Lähde
Sähköinen kuljettajarekisteri 20 milj. € 100 milj. € 400 % Lähde
Puolustusvoimien atk-, tulostus- ja kopiointjärjestelmien ulkoistaminen 14 milj. € 72 milj. € 414 % Lähde
Kansallinen tietoarkisto ja sähköinen resepti (KANTA) 20 milj. € 450 milj. € 2 150 % Lähde

Rehellisyyden nimissä on todettava, että tähän listaan on tietysti poimittu vain pahimpia epäonnistumisia. Mainiosti onnistuneista hankinnoista ei revitä samanlaisia otsikoita. Silti, worst case -skenaarionkin mahdollisuus ansaitsee osakseen hieman pohdintaa. Näiden viiden VTV:n moittiman hankkeen keskimääräinen kustannusten ylitys oli uskomattomat 639 %. Lisäksi pitää huomioida, että luvuissa ei ole mukana kuin suorat lisäkustannukset, ei viivästymisestä ja huonolaatuisesta lopputuloksesta johtuvia välillisiä kustannuksia. Esimerkiksi VALDA-järjestelmä ajettiin lopulta kokonaan alas eli siihen käytetyt 9 miljoonaa olivat kokonaan hukkaan heitettyä rahaa.

On tietysti pelkkää spekulointia ja kauhuskenaarioiden maalailua väittää, että uuden potilastietojärjestelmän kustannukset, edes välilliset kustannukset huomioiden karkaisivat näin pahasti käsistä. Mutta ajatusleikkinä, entä jos järjestelmän hankinta todella menisi yhtä pahasti puihin kuin yllä kuvatut hankkeet ja ylittäisi budjetin tuolla 639 prosentilla? Silloin kokonaiskustannus olisi 13,3 miljardia euroa ja vertailukohtia pitäisi hakea jo varsin hurjasta suuruusluokasta:

Korostan, että yllä oleva kuva ei ole tarkoitettu realistiseksi arvioksi siitä, miten voi käydä jos tähän hankintaan lähdetään. On silti hyvä muistaa, miten monia pahoja epäonnistumisia julkisen sektorin it-hankinnoissa on tehty ja että jos nyt pohdittavana oleva projekti menee yhtä pahasti kiville, hintalappu on aivan mieletön.

Kun puhutaan näin suurista asioista, tarvittaisiin syvällisempää julkista keskustelua hankinnasta ja sen toteutustavasta kuin mitä tähän asti on nähty. Ei ole oikein, että miljardiluokan hankintaa joka määrittelee suomalaisen terveydenhoidon toimintaedellytyksiä vuosiksi eteenpäin viedään eteenpäin kulissien takana ja luottamushenkilöiden oletetaan toimivan kumileimasimena joka ei kyseenalaista tehtyjä päätöksiä. Toivon vilpittömästi, että Helsingin terveyslautakunta huomisessa kokouksessaan palauttaa asian uudelleen valmisteltavaksi ja siitä käydään se julkinen keskustelu jonka tämän mittakaavan hankinta vaatisi.

______________________________

Lisäys 10.9.2012 

Meiltä on aiheellisesti kysytty, miksi käytämme yllä olevissa kuvioissa pinta-aloja kuvaamaan summia pituuden, siis tavallisen pylväskuvion sijaan. Onhan alalla yleisesti tunnettu fakta, että ihmiset ovat huomattavasti parempia havaitsemaan eroja pituudessa kuin pinta-alassa. Pinta-alaerot yleensä aliarvioidaan varsin reippaasti. Alla ensimmäisen laatikkokuvion tiedot myös perinteisen pylväskuvion muodossa:

Tämä kuvio antaa pienen vihjeen siitä, miksi tällä kertaa päädyimme käyttämään laatikoita pylväiden sijaan. Ennen kaikkea kyse on tilankäytöstä: nimiöt ovat niin pitkiä, että pylväskuviona esitettynä tärkein asia eli elementtien koot ei saa ansaitsemaansa visuaalista painoarvoa. Ja vaikka valittu esitystapa hieman ”vähätteleekin” kokoeroa vertailukohtiin, potilastietojärjestelmän hinta-arvio on niin poskettoman suuri että kuvion viesti tulee selväksi joka tapauksessa.

Kriitiikki on silti perusteltua. Taisimme itse sortua hieman siihen, mistä olemme usein muita kritisoineet: esitystavan näyttävyyden korostamiseen tiedonvälityksellisten kriteerien sijaan.

Lapsiperheiden kantakaupunki – vai väärin laadittu koropleettikartta?

Helsinkiläinen kunnallispoliitikko Mikko Särelä on laatinut jonkin verran huomiota sosiaalisessa mediassa keränneen kartan joka näyttää, kuinka paljon lapsia neliökilometrillä Helsingin eri osissa asuu. On ihan totta, että lasten osuus kantakaupungissa on ollut kasvamaan päin; alle kouluikäisistä helsinkiläislapsista asuu nykyisin kantakaupungissa vajaan viidenneksen isompi prosenttiosuus kuin vuonna 1992. Harmi kyllä, Särelän kartta ei paljasta tätä kunnallispolitiikan kannalta varsin merkittävää seikkaa vaan tulee kertoneeksi lähinnä Helsingin eri osa-alueiden asukastiheyden.

On vanha informaatiomuotoilun nyrkkisääntö, että koropleettikartalla ei pitäisi kuvata absoluuttisia vaan ainoastaan suhteellisia lukuja. Miksi näin? Otetaanpa käytännön esimerkiksi tämä Helsingin seudun kuntia kuvaava kartta:

(Kiitos, kiitos, kyllä tällä komistuksella vielä joku design-palkinto voitetaan!)

Yllä oleva kartta kuvaa HSL:n julkaisusta Liikkumistottumukset Helsingin seudun työssäkäyntialueella vuonna 2008 löytyvää tietoa siitä, kuinka paljon ”pääasillisia autonkäyttäjiä”* alueen eri kunnissa on, neliökilometrille laskettuna. Ja kas vain! Helsingin kantakaupungissa on 1 745 pääasiallista autonkäyttäjää neliökilometrillä kun taas esimerkiksi Vihdissä heitä on vain 25/km².

Voidaanko siis päätellä, että Helsingin kantakaupungissa suurin osa ihmisistä liikkuu omalla autolla ja Vihdissä ei? No ei voida. Pääasiallisten autonkäyttäjien osuus on kantakaupungissa vertailun pienin (37 %) ja Vihdissä puolestaan suurin (68 %). Kartta näyttää käytännössä vain sen, että Helsingin kantakaupungissa asutaan tihemmin kuin Vihdissä.

Koropleettikartta on hyvin herkkä aluejaolle. Jako on harvoin sellainen että eri alueet, olivat ne nyt sitten kuntia kuten esimerkkikartassani, suurpiirejä kuten Särelän kartassa tai jotain muita, olisivat asukasluvultaan ja -tiheydeltään vertailukelpoisia. Niinpä näytettäessä absoluuttisia lukuja, tullaan yleensä kuvanneeksi vain aluejaon ominaisuuksia. Havainnollinen esimerkki löytyy Wikipediasta, jossa sama väestötieto Bostonista on kuvattu sekä absoluuttisena henkilömääränä väestölaskentaruudukon lohkoissa että asukaslukuna eekkerillä samoissa lohkoissa:

Toki absoluuttisia lukujakin kuvaava kartta jotain paljastaa. Se, että kantakaupungissa on enemmän autoja neliökilometrillä kuin Vihdissä on ihan merkittävä tieto liikenteen suunnittelun kannalta. Mutta liikenneinsinöörit tarvitsevat paljon tarkempaa tietoa kuin mitä karkean tason teemakartta paljastaa. Tällaiset kartat palvelevat lähinnä viestinnällisiä tarpeita kun halutaan puhutella muita kuin asiantuntijoita, ja absoluuttisia lukuja esittävä koropleettikartta yleensä lähettää väärän viestin.

On totta, että lapsiperheiden palvelut kantakaupungissa eivät ole kasvaneet samaa tahtia kuin lasten osuus väestöstä ja esimerkiksi päiväkotipaikkojen saaminen on vaikeampaa kuin esikaupunkialueilla. (Poikkeuksia toki on, suuntaan ja toiseen.) Päiväkotipaikkojen pitäisi olla lähellä niiden käyttäjiä, siis lapsia, ja tässä suhteellinen osuus on vähemmän merkittävä tekijä kuin lasten absoluuttinen määrä. Mutta koropleettikartta ei ole oikea väline sen kuvaamiseen. Nyt kartta antaa sellaisen mielikuvan, että kantakaupungissa asuisi suhteellisesti – tai jopa absoluuttisesti – enemmän lapsiperheitä kuin muualla Helsingissä. Kumpikaan ei pidä paikkaansa. Lapsiperheitä asuu kantakaupungissa tiheämmässä kuin esikaupungeissa, mutta niin asuu likipitäen kaikkia muitakin kuviteltavissa olevia ihmisryhmiä: autoilijoita, maahanmuuttajia, työttömiä…

Kantakaupungin lapsiperheet – ryhmä johon kuuluu paljon omiakin ystäviäni ja tuttaviani – ja heidän alimitoitetut palvelunsa ansaitsevat kyllä huomiota näin kunnallisvaalien alla käytävässä julkisessa keskustelussa. Mielestäni Särelä on aivan oikeilla jäljillä nostaessaan teeman esiin, mutta informaatiomuotoilun ammattilaisena täytyy todeta että valittu työkalu ei sovi sen datan esittämiseen, johon sitä nyt on käytetty. Jos koropleettikarttaa haluaa käyttää, sillä voisi kuvata vaikkapa tarjolla olevien päivähoitopaikkojen suhdetta lasten määrään. Jos haluaa näyttää pelkästään lasten absoluuttisen määrän, mielenkiintoisempi olisi vaikkapa aikasarja joka näyttää miten määrä on kehittynyt. Kenties asia on kuitenkin luonteeltaan sellainen, että sen ydin tulee paremmin esiin tekstin kuin grafiikan muodossa.

____

*) Tämän käsitteen tarkempi määritelmä löytyy raportin sivulta 44. Olisin mieluummin näyttänyt henkilöautojen määrän kunnissa, mutta siitä en valitettavasti nopealla googletuksella löytänyt tietoa, joten tämä hieman monimutkainen tilastointimääritelmä saa toimia tämän demonstraation tarpeisiin likiarvona sille.

Koska suomalaiset saavat alkunsa?

Matt Stiles julkaisi The Daily Viz -blogiissan joitain päiviä sitten visualisoinnin joka kuvaa eri syntymäpäivien yleisyyttä Yhdysvalloissa. Ongelmallista Stilesin toteutuksessa oli, että se perustui dataan joka ei sisältänyt varsinaisia syntyvyyslukuja, vaan ainoastaan eri päivämäärien yleisyysjärjestyksen. Tästä syystä Stiles teki vielä uuden version joka perustuu absoluuttisiin lukuihin. Uudesta kuviosta käy ilmi, että kuukausittainen vaihtelu syntyvyydessä on lopulta varsin pieni.

Juttu herätti kysymyksen siitä, miltä syntyvyyden kuukausittainen vaihtelu mahtaisi näyttää Suomessa. Parahiksi Tilastokeskuksella on syntyvyydestä tarjolla varsin tarkkaa dataa. Syntymäkuukautta kiinnostavampaa on ehkäpä se, milloin lapset saavat alkuunsa. Yhdeksän kuukauden siirto lukuihin onnistuu toki päässälaskunakin, mutta hieman hankalasti. Siksi päätin sopivasti näin alkukesän tienoilla tehdä kuvion, joka esittää syntyvyyden kuukausittain ja jossa tämä muutos on tehty valmiiksi. Kuviosta voidaan lukea joko syntymäkuukausi (himmeällä suluissa), tai sen alla voimakkaammalla tekstityypillä ladottu oletettu hedelmöityskuukausi.

 

Koska alkuperäinen data kertoo vain syntyvyydestä, kuvio on lähinnä suuntaa antava, koska se ei huomioi keskimääräistä lyhyempiä tai pidempiä raskauksia. Kuvioon merkityt eri vuodet viittaavat samasta syystä syntymävuoteen, eivät siihen vuoteen jolloin lapsi on saanut alkunsa. Aiheen syklisyydestä johtuen kuviotyypiksi soveltui poikkeuksellisesti tutkakuvio. Kuvion katkaistu asteikko ylikorostaa vaihtelua tarkoituksellisesti.

Kuviosta voidaan havaita, että ajatus juhannuslapsista ei ole täysin tuulesta temmattu: kesäkuussa alkunsa saaneita lapsia on vertailun joka vuonna selvästi enemmän kuin toukokuussa. Muutoin suvunjatkaminen vaikuttaisi painottuvan pikemminkin syksyn ja talven puolelle. Esimerkiksi vuoden 2011 elokuussa, jolloin oli eniten syntyneitä, maailmaan tuli peräti 853 uutta suomalaista enemmän kuin saman vuoden joulukuussa. Vuoden 2011 lapsista oli siis laitettu alulle peräti 18% enemmän marras- kuin maaliskuussa.

Entäpä miltä kuvio näyttäisi, jos vaihtelua ei korosteta asteikkoa katkaisemalla? Tein Stilesin esimerkkiä seuraen tällaisen kuvion, johon on laskettu kuukausien päiväkohtaiset keskiarvot:

Kuukausittainen vaihtelu  näyttäisi tämän perusteella olevan Suomessa aavistuksen suurempi kuin Yhdysvalloissa. Huippukuukausi on sama (syyskuussa syntyneet eli joulukuussa alkunsa saaneet), mutta joulukuun alhainen syntyvyysluku poikkeaa amerikkalaisesta datasta. Mitäköhän Suomessa ja USA:ssa siis tapahtuu maaliskuussa?

______________________________

Päivitys 23.5.2012 

Kommenteissa esitettyjen hyvien huomioiden perusteella päätin tehdä pienen päivityksen. Ensimmäisessä tutkakuviossa oli tosiaan suoraan käytetty absoluuttisia syntyvyyslukuja, joten kuukausien eri pituuksia ei ollut kompensoitu. Pylväskuviossa tämä oli huomioitu, se näyttää syntyneet per kuukausi jaettuna kuukauden pituudella. Alla oleva uusi kuvio näyttää nyt samalla tavalla syntyneet per kuukausi, unohtamatta vuoden 2008 karkauspäivää. Voidaan huomata että helmikuun syntyneiden kohdalla aiemmassa grafiikassa ollut notkahdus on hävinnyt, mutta muutoin yleiskuva on varsin samannäköinen.


Epätarkkuutta lisää tietysti se seikka, että hedelmöityskuukausi voi olla erimittainen kuin syntymäkuukausi. Vaihtelu kuukausien pituudessa on kuitenkin pientä verrattuna raskauksien tavalliseen pituusvaihteluun: raskauden keston arviointi heittää parhaimmassakin tapauksessa 8-9 päivää ja vähemmän kuin viisi prosenttia lapsista syntyy tarkalleen 40 viikon raskauden jälkeen. 80% syntymistä tapahtuu kahden viikon sisällä 40 viikosta. Näin kuvio on hyvin karkeasti suuntaa antava siittämiskuukauden kohdalla. Tarkan tieton saamiseksi siitä milloin suomalaiset lapset on pantu alulle vaatisi siis enemmin kyselytutkimusta. Liekö sellaista tehty?

Aiempien vuosien ja pitkän ajan muutosten visualisointi on ehdottomasti mielessä ja siihen tulen varmasti vielä palaamaan vastaisuudessa, data kun ulottuu aina vuoteen 1900 asti.

Student Works From our Course, Part I

Some of our readers know that we run an information design course at Aalto University each year. It’s organized by the graphic design department, but enrollment is open to all Aalto students. We typically have a slight majority of graphic designers and a growing number of technology students participating. I think a mixed group such as this is what Aalto’s founding group had in mind. All we need now are a few business students to participate in the next course and we’ll boast one of the most diverse groups in the whole university.

We see lots of interesting student works on the course each year, but apart from outside guests to the review sessions, very few people ever get to see them. Here are some examples that I split into two separate posts according to the assignment.

Improve Wikipedia!

Jonatan, Juuso and I have been involved in the Finnish open knowledge community, a budding movement to engage citizens and officials in a drive to open government databases and increase the amount of information that’s freely accessible to the public. The Open Data Kitchen is part of it, but we also take part in other ways.

I was recently made president of Wikimedia Suomi, a small local chapter of the organization that promotes Wikipedia, the free encyclopedia. One of its goals is to get experts and advanced students to participate in editing Wiki articles. Getting text contributions is usually no problem, but the quality of information graphics is far behind that of the articles themselves. We thought we’d help by giving the students in our course an assignment to design new visualizations or to redesign existing ones. To narrow the scope a little, all the articles they’d work on would be related to economics.

Showing how the Gross Domestic Product and national population figures line up in European countries. Countries that are relatively poor have population stacks that flow over the GDP bar. Work by Karoliina Liimatainen, Aalto University School of Science and Technology.

 

 

A diagram by Anssi Kokkonen illustrating the way money is released into the economy.

 

Sasa Kerkos designed a simplified diagram of the Atlantic slave trade.

 

The Big Mac Index is a popular and intuitive tool for many things. For one, it gives you an idea if a currency is over- or undervalued. This visualization shows how many burgers you get if you spend a hundred bucks. Work by Antti Vuorela, Aalto University School of Science and Technology. (click to enlarge)

 

A simplified map of the legendary Silk Road. Work by Jutta Joutjärvi.

 

An experimental way to visualize the Gini coefficient (a measure of income disparity) and GDP per capita. Work by Vahid Mortezaei.