Oikean Median puoluekannatusanalyysi on huonosti tehtyä ja laiskaa datajournalismia

Arvokonservatiiviseksi vaihtoehtomediaksi itsensä määrittelevä Oikea Media julkaisi lauantaina Marko Hamilon kirjoittaman puolueiden kannatusta ja vieraskielisten osuutta Helsingin eri alueilla vertailevan datajournalismijutun otsikolla ”Maahanmuuton kannattajat asuvat kaukana monikulttuurisesta arjesta”.

Analyysin keskeinen sisältö tiivistetään Hamilon jutussa näin:

– – Sdp ja Perussuomalaiset saavat paljon ääniä monikulttuurisilta alueilta, sen sijaan Kokoomuksen ja Vihreiden kannatus on heikompaa siellä missä monikulttuurisuus on voimakasta. Vasemmistoliiton kannatus ei riipu äänestysalueen monikulttuurisuuden asteesta.

On ilahduttavaa, että konservatiivitkin yrittävät vaihteeksi käydä yhteiskunnallista keskustelua asia-argumentein. Valitettavasti artikkeli perustuu virheellisesti käsiteltyyn dataan eikä edes tämä virheellinen aineisto lähemmin tarkasteltuna täysin tue Hamilon sanallisesti esittämää tulkintaa.

Käytetty aineisto soveltuu tarkoitukseen huonosti ja käytetty menetelmä on kuvattu puutteellisesti

Puolueiden kannatuksen ja ”monikulttuurisuuden”, joka Hamilon artikkelissa määritellään vieraiden kielten puhujien osuudeksi, vertailu on lähtökohtaisesti hankalaa, sillä näistä teemoista saatavilla olevat tilastot käyttävät erilaista aluejakoa. Äänestysalueita ei käytetä väestötilastojen aluejakona, joten vieraiden kielten puhujien osuus on saatavilla vain niiden kanssa yhteensopimattomalla aluejaolla, esimerkiksi kaupunginosittain (Helsingin seudun aluesarjat -sivustolta) tai postinumeroalueittain (Tilastokeskuksen PAAVO-tietokannasta). Hamilo ilmoittaa käyttäneensä lähteenä aluesarjojen aiheistoa.

Alla oleva Helsingin kartta kuvaa sitä, miksi tämä on ongelma. Äänestysalueiden rajat eivät vastaa yksi yhteen kaupunginosien (tai postinumeroalueiden) rajoja. Kartassa mustalla näkyvät ne rajat, jotka ovat sekä kaupunginosien että äänestysalueiden rajoja, vihreällä vuoden 2012 kuntavaalien äänestysalueiden rajat ja oranssilla kaupunginosien rajat. Lisäksi vihreänharmaalla on merkitty ne äänestysalueiden rajat, jotka muuttuivat vuonna 2013.

(Kuva aukeaa klikkaamalla suuremmaksi.)

Sellaisissa tapauksissa, joissa kaikki kaupunginosaan kuuluvat äänestysalueet mahtuvat kokonaan sen rajojen sisäpuolelle ongelmaa ei synny, koska tällöin tulokset voidaan laskea yhteen ja muodostaa näin kaupunginosakohtaiset luvut. Ongelmia tuottavat sellaiset äänestysalueet, jotka ulottuvat kahden tai useamman kaupunginosan puolelle.

Yllä olevalla kartalla oranssina näkyvät kaupunginosien rajat ovat sellaisia kohtia, joissa äänestysalue ulottuu useamman kaupunginosan alueelle. Esimerkiksi äänestysalue 003A Kaartinkaupunki pitää sisällään Kaartinkaupungin kaupunginosan lisäksi myös Kaivopuiston sekä ison siivun Ullanlinnasta.

Hamilo ei selitä miten hän on ratkaissut aluejakojen yhteensovittamiseen liittyvät ongelmat. Asian selvittämistä hankaloittaa, että hän käyttää kaupunginosista pääosin muita kuin niiden virallisia nimiä. Joissain kohdin tämä on sisällöllisesti perusteltua: harva esimerkiksi tietää, että Itäkeskus ja Myllypuro kuuluvat molemmat virallisesti Vartiokylä-nimiseen kaupunginosaan (numero 45), joten nimitys Itäkeskus–Myllypuro on virallista nimeä havainnollisempi. Monet Hamilon valitsemat nimitykset ovat kuitenkin harhaanjohtavia: hän kutsuu esimerkiksi Länsisataman kaupunginosaa (20) Ruoholahdeksi, vaikka kaupunginosaan kuuluvat Ruoholahden lisäksi myös Jätkäsaari, Lapinlahti ja Hernesaari.

Hamilo vaikuttaa myös jättäneen viisi kaupunginosaa kokonaan pois analyysistään perustelematta ratkaisua mitenkään. Puuttuvat kaupunginosat ovat Kaivopuisto (09), Laakso (18), Vanhakaupunki (27), Viikki (36) ja Vartiosaari (48). Varsinkin n. 15 000 asukkaan Viikin jättäminen pois on erikoinen veto, joka kaipaisi jonkin perustelun tuekseen. Uskoisin tämän liittyvän jollain tavalla äänestysalueiden ja kaupunginosien yhteensovitusongelmaan, mutta kun metodologiaa ei ole tekstissä avattu, asia jää mysteeriksi.

Olen koonnut alla olevaan taulukkoon käsitykseni siitä, mitä virallisen aluejaon kaupunginosaa mikin Hamilon käyttämä nimitys tarkoittaa:

Hamilon käyttämä kaupunginosan nimi kaupunginosan virallinen nimi ja numero asukasluku 1.1.2016
Alppila 12 Alppiharju 11 937
Etu-Töölö 13 Etu-Töölö 14 559
Haaga 29 Haaga 26 771
Hermanni 21 Hermanni 6 325
Herttoniemi-Roihuvuori 43 Herttoniemi 26 216
Itäkeskus-Myllypuro 45 Vartiokylä 33 956
Jakomäki 41 Suurmetsä 16 209
Kaartinkaupunki 03 Kaartinkaupunki 1 050
Kallio 11 Kallio 19 434
Kamppi-Hietalahti 04 Kamppi 11 709
Kannelmäki-Malminkartano 33 Kaarela 27 357
Käpylä 25 Käpylä 8 114
Katajanokka 08 Katajanokka 4 470
Kluuvi 02 Kluuvi 636
Konala 32 Konala 6 197
Kontula-Mellunmäki 47 Mellunkylä 37 600
Koskela 26 Koskela 3 336
Kruununhaka 01 Kruununhaka 7 376
Kulosaari 42 Kulosaari 3 806
Kumpula 24 Kumpula 3 838
Laajasalo 49 Laajasalo 16 630
Lauttasaari 31 Lauttasaari 22 617
Malmi 38 Malmi 24 664
Maunula 28 Oulunkylä 23 333
Meilahti 15 Meilahti 5 091
Munkkiniemi 30 Munkkiniemi 17 629
Pakila 34 Pakila 10 399
Paloheinä 35 Tuomarinkylä 8 982
Pasila 17 Pasila 9 219
Pitäjänmäki 46 Pitäjänmäki 11 726
Pukinmäki 37 Pukinmäki 8 383
Punavuori-Eira 05 Punavuori + 06 Eira 10 163
Ruoholahti 20 Länsisatama 10 350
Ruskeasuo 16 Ruskeasuo 10 373
Santahamina 51 Santahamina 423
Sörnäinen 10 Sörnäinen 9 634
Suomenlinna 52 Suomenlinna 790
Taka-Töölö 14 Taka-Töölö 15 244
Tammisalo 44 Tammisalo 2 247
Tapanila 39 Tapaninkylä 14 159
Tapulikaupunki 40 Suutarila 19 901
Toukola 23 Toukola 8 777
Ullanlinna 07 Ullanlinna 10 629
Vallila 22 Vallila 9 326
Vuosaari 54 Vuosaari 37 834
Östersundom 55 Östersundom +
58 Karhusaari +
59 Ultuna
1 961
puuttuvat kokonaan 09 Kaivopuisto
18 Laakso
27 Vanhakaupunki
36 Viikki
48 Vartiosaari
yht. 17 901

Taulukosta ilmenee eräs muukin käytetyn aluejaon ongelma. Äänestysalueet ovat asukasluvultaan likimain samankokoisia, useimmiten noin 2 000–4 000 henkeä, joten niiden suora vertailu on vielä kohtalaisen mielekästä ilman sen kummempia painokertoimia. Hamilon vertailemien kaupunginosien asukasluvut kuitenkin vaihtelevat 423 asukkaan Santahaminasta 37 800 asukkaan Vuosaareen. On kyseenalaista, millaisia johtopäätöksiä näin erilaisia alueita suoraan vertailemalla voi ylipäänsä tehdä.

Hamilo on päätynyt yhdistämään vuosien 2008, 2011, 2012 ja 2015 vaalien tulokset yhdeksi luvuksi. Niin puolueiden kannatus kuin vieraskielisten määräkin on vaihdellut eri alueilla tällä ajanjaksolla paljon, eikä Hamilo selitä, miten hän on ottanut vaihtelun huomioon. Runsas vieraskielisten määrä vuonna 2015 tuskin on voinut vaikuttaa takautuvasti puolueiden kannatukseen vuonna 2008. (Pieniä lisähankaluuksia saattaa joissain kohdin tuottaa myös, että äänestysalueiden rajoja on muutettu vuosina 2010 ja 2013.)

Minulle jää myös epäselväksi, miten Hamilon ilmoittama vieraskielisten osuus eri kaupunginosissa on laskettu. Se ei aluesarjojen luvuilla nopeasti testailtuna vaikuttaisi olevan ainakaan vaalivuosien painotettu tai painottamaton keskiarvo, minkään yksittäisen vaalivuoden luku eikä myöskään tuorein Aluesarjat-sivustolta löytyvä luku eli tilanne vuoden 2016 alussa.

Jos analyysin olisi tehnyt jokin luotettava, journalistin ohjeisiin sitoutunut media, tai vielä parempaa, yliopistossa tai vaikkapa sektoritutkimuslaitoksessa työskentelevä ammattitutkija, saattaisin ehkä olla valmis uskomaan, että kaikille yllä mainitsemilleni erikoisille ratkaisuille löytyy hyvä perustelu ja ongelmakohdat on pystytty tavalla tai toisella taklaamaan. Hamilon ja Oikean Median uskottavuus ei kuitenkaan ole sillä tasolla, että ilman yksityiskohtaisia perusteluja voisi noin vain olettaa tekijän tietävän mitä tekee – varsinkin kun aineiston lähempi tarkastelu tuntuu pikemminkin lisäävän kysymyksiä kuin vastaavan niihin.

Edes Hamilon käyttämä data ei tue hänen johtopäätöksiään

Kelpuuttakaamme kuitenkin keskustelun vuoksi Hamilon käyttämä data kaikkine epäselvyyksineenkin. Tukeeko käytetty aineisto kirjoittajan sanallista tulkintaa? Hamilo toteaa kuvioiden lukuohjeessa mm. näin:

Jos puolueen kannatus korreloi positiivisesti monikulttuurisuuden kanssa, on trendi nouseva oikealle mentäessä.

Hamilo on siis kiinnostunut siitä, miten puolueen kannataus korreloi ”monikulttuurisuuden” (eli vieraskielisten osuuden kanssa). Tässä kohdin on hyvä muistuttaa siitä, mitä korrelaatio oikeastaan tarkoittaa. Tiivis määritelmä löytyy esimerkiksi Tieto näkyväksi -kirjasta (s. 195):

Korrelaatio eli yhteisvaihtelu on suure, joka kuvaa kahden muuttujan keskinäistä riippuvuussuhdetta. Tiedämme esimerkiksi, että ihmisen tulotasolla ja eliniänodotteella on yhteys toisiinsa: suurituloiset elävät keskimäärin pienituloisia vanhemmiksi. Havainto pätee tilastollisella tasolla, vaikka yksilötasolla tästä esiintyykin runsaasti poikkeuksia.

Voimakas korrelaatio viittaa siihen, että muuttujien välillä on jonkinlainen syy­-yhteys, mutta ei kerro sitä, kumpi muuttujista on syy ja kumpi seuraus tai löytyykö keskinäisen riippuvuuden takaa kenties jokin kolmas selittävä tekijä. Tämä ei käy ilmi pelkästään tilastollisesta analyysistä, vaan syy–seuraussuhteen selvittäminen vaatii syvällisempää tietoa aiheesta.

Korrelaation laskemiseen on useita matemaattisia menetelmiä, joista käytetyin on Pearsonin korrelaatiokerroin eli r. Se voi saada arvoja välillä –1 … 1. Korrelaatio on sitä voimakkaampi, mitä enemmän r:n arvo poikkeaa nollasta. Negatiiviset arvot kuvaavat käänteistä riippuvuussuhdetta, jossa toisen muut­tujan arvo kasvaa toisen pienentyessä.

– –

Tilanteet, joissa r olisi tasan 0, 1 tai –1 ovat varsin harvinaisia. Useimmin korrelaatiokertoimen arvo asettuu jonnekin niiden välimaastoon. Mikä silloin on voimakas tai heikko korrelaatio? Ohessa suuntaa antava jaottelu:

r = 0–0,2 ei korrelaatiota
r = 0,2–0,4 heikko korrelaatio
r = 0,4–0,6 kohtalainen korrelaatio
r = 0,6–0,8 voimakas korrelaatio
r = 0,8–1 erittäin voimakas korrelaatio

Korrelaatio on siis matemaattinen suure, jonka suuruus voidaan visualisoinnista arvioida silmämääräisesti vain karkeasti, mutta jonka laskemiseen on olemassa vakiintunut ja helppo menetelmä.

Jostain syystä Hamilo ei ole laskenut puolueiden kannatuslukujen ja ”monikulttuurisuuden” asteen välisiä korrelaatiokertoimia, vaan nojaa pelkästään laatimiinsa visuaalisiin esityksiin, joita hän tulkitsee lukijalle sanallisesti.

Alla olevaa kuviota tulkitaan mm. näin: ”Vihreiden vankin kannatus löytyy kantasuomalaisten asuttamilta alueilta ja kannatus laskee monikulttuurin lisääntyessä.”

Seuraavaa grafiikkaa kuvaillaan vuorostaan näin: ”Vasemmistoliiton kannatus näyttää olevan tasaista kautta linjan, eikä siis riipu alueen monikulttuurisuusasteesta.”

Minun täytyy sanoa, etten näe kuvioissa Hamilon kuvailemaa eroa. Minun silmiini kumpikaan niistä ei paljasta selkeää yhteyttä puolueen kannatuksen ja ”monikulttuurisuuden” välillä, vaan kaupunginosia kuvaavat pallot ovat kummassakin kuviossa melko lailla hajallaan ympäri koordinaatistoa.

Onneksi asiassa ei tarvitse luottaa pelkkään silmämääriseen arvioon, vaan voimme laskea puolueen kannatuksen ja vieraitten kielten puhujien osuuden korrelaation kullekin puolueelle:

puolue korrelaatio
SDP 0,72
kokoomus −0,55
perussuomalaiset 0,51
vihreät −0,18
vasemmistoliitto 0,15

SDP:n ja monikulttuurisuuden väillä näkyy Hamilon keräämän datan perusteella olevan voimakas (r = 0,72) positiivinen korrelaatio. Myös kokoomuksen ja perussuomalaisten kohdalla korrelaatio on kohtalainen, kuten Hamilo jutussaan kuvaileekin.

Mutta kas vain! Vihreiden ja vasemmistoliiton korrelaatiokertoimet ovat käytännössä samansuuruisia, vaikkakin toki vastakkais­suuntaisia. Toista näistä Hamilo kuvailee siis sanomalla, että ”kannatus laskee monikulttuurin lisääntyessä”, toista taas, ettei kannatus ”riipu alueen monikulttuurisuusasteesta”.

Alle 0,2:n korrelaatiota kuvaillaan yleensä sanoilla ”ei korrelaatiota”. Toisin sanoen, Hamilon väite siitä, että vihreiden kannatus olisi kääntäen verrannollinen ”monikulttuurisuuden” määrään ei kestä lähempää tarkastelua edes hänen omaa dataansa käyttäen. Hamilo on päättänyt analyysinsä tuloksen etukäteen ja näkee kuviossa mitä haluaa, vaikka yksinkertainen tilastollinen analyysi olisi paljastanut, ettei aineisto tue tehtyä johtopäätöstä. Tämä siis sen lisäksi, ettei käytetty aineisto sovi tällaisen analyysin tekemiseen ja sitä on käsitelty virheellisesti ja läpinäkymättömästi.

Näiden puutteiden lisäksi voisin listata vielä lisääkin. Esimerkiksi: Miksi tarkastelu on rajattu vain Helsinkiin? Eikö vähintään muut pk-seudun kunnat ja kenties muutkin suuret kaupunkiseudut olisi syytä ottaa mukaan isomman otoksen ja siten robustimman analyysin aikaansaamiseksi?

Entäpä miksi jutussa ei ole lainkaan käsitelty vaihtoehtoisia selityksiä havaituille puoluekannatuksen alueellisille eroille? Uskaltaisin veikata, että sekä asuinpaikka että puoluekannatus korreloivat voimakkaammin tulotason kanssa kuin puolekannatus alueen vieraskielisten määrän kanssa. Varsinkin kun Hamilon implikoitu väite – että maahanmuuttajien lähellä asuminen lisäisi maahan­muutto­vastaisia asenteita ja siten perussuomalaisten suosiota – on ristiriidassa olemassaolevan tutkimustiedon kanssa, vaadittaisiin vähän kattavampaa vaihtoehtoisten selitysmallien poissulkemista, jotta analyysi olisi uskottava.

Datajournalismin tarkoitus ei ole väännellä ja käännellä aineistoa halutun lopputuloksen saamiseksi. Oikean Median ja Hamilon kannattanee vastaisuudessa jättää tämä laji osaavampien heiniksi.

Olen kerännyt kaikki käytetyt datat yhteen CSV-muotoiseen taulukkoon, jonka halukkaat voivat ladata omien analyysien tekemistä varten.

Puoluekannatus ja virhemarginaalit

Alma Media ja Yle julkistivat joulukuun lopulla peräkkäisinä päivinä puolueiden kuntavaalikannatusta koskevat mielipidemittauksensa. Tietoykkönen Oy:n Almalle toteuttaman kyselyn haastattelut tehtiin 9.–18.12., Taloustutkimus taas toteutti Ylen kyselyn 7.–28.12. Puolueiden kannatusprosentit kummassakin kyselyssä on lueteltu alla olevassa taulukossa.

Yle Alma Media
SDP 21,2 % 20,1 %
keskusta 20,3 % 19,5 %
kokoomus 17,4 % 17,1 %
vihreät 13,3 % 11,2 %
PS 9,4 % 11,6 %
vasemmistoliitto 7,6 % 8,8 %
RKP 4,9 % 4,5 %
KD 3,6 % 3,7 %
muut 2,3 % 3,5 %

Puolueiden kannatuksissa on havaittavissa pieniä eroja kyselyiden välillä. Huolimatta siitä, että mielipidemittausten aikavälit poikkeavat hieman toisistaan, Alman kyselyn aikaväli mahtuu kokonaan Ylen kyselyn ”sisään”. Voisi kuvitella, että liki samaan aikaan tehdyt mielipidemittaukset antaisivat melko tarkalleen samat kannatuslukemat kullekin puolueelle. Näin ei kuitenkaan ole. Mistä se johtuu?

Vastaus kysymykseen löytyy tietenkin mielipidemittausten virhemarginaalista. Mutta mitä virhemarginaali oikeastaan tarkoittaa ja miten sitä pitäisi tulkita?

Virhemarginaali ja luottamusväli

Otetaan lähempään tarkasteluun ne kaksi puoluetta, joiden kannatuslukemissa ero Ylen ja Alma Median kyselyiden välillä on suurin: poliittisen spektrin vastakkaisilta laidoilta löytyvät vihreät ja perussuomalaiset.

Ylen kyselyssä vihreät on neljänneksi suurin puolue selvällä erolla viidenneksi suurimpaan puolueeseen perussuomalaisiin. Alma Median kyselyssä puolueet taas ovat lähes tasoissa, mutta perussuomalaiset johtaa vihreitä täpärästi.

Molempien kyselyiden ilmoitettu virhemarginaali on ±2,4 prosenttiyksikköä. Tarkoittaako tämä, että esimerkiksi vihreiden todellinen kannatus voi Ylen kyselyn mukaan olla yhtä hyvin mikä hyvänsä luku välillä 10,9–15,7 % ja Alma Median mukaan välillä 8,8–13,6 %? Ei tarkoita.

Ensin lienee hyvä hieman avata, mikä on virhemarginaalin määritelmä. Tilastotieteellisin termein ilmaistuna mielipidemittauksen virhemarginaali on sama asia kuin 95 prosentin luottamusvälin (engl. confidence interval) puolikas. Tämä tarkoittaa siis sitä, että mikäli tutkimuksen otos on harhaton (tästä lisää artikkelin loppupuolella) puolueen todellinen kannatus on 95 prosentin todennäköisyydellä jollain kohtaa vaihteluväliä, joka ulottuu virhemarginaalin verran ilmoitetusta prosenttiluvusta kumpaankin suuntaan.

Kyselyn virhemarginaali lasketaan seuraavalla kaavalla:

Kaavassa p merkitsee puoluekannatuksen tai muun mittauksen kohteena olevan asian suhteellista osuutta desimaalilukuna (esim. vihreiden kannatus Ylen kyselyssä = 0,133) ja n kyselyyn vastanneiden määrää eli otoskokoa. 1,96 tulee kaavaan taas siitä, että 95 prosentin vaihteluvälin äärirajat ovat ±1,96 keskihajonnan etäisyydellä keskiarvosta.

Suoraan kaavasta ilmenee kaksi merkittävää virhemarginaalia koskevaa seikkaa:

  1. Populaation eli perusjoukon, siis koko tutkimuksen kohteena olevan ryhmän koko ei vaikuta virhemarginaaliin. Voi tuntua epäintuitiiviselta, että puolueiden kannatuksen selvittämiseksi koko Suomessa (5,5 milj. as.) tai pelkästään vaikkapa Lappeenrannassa (73 000 as.) tarvitaan yhtä suuri otos saman virhemarginaalin saamiseksi. Mikäli otoskoko on hyvin lähellä populaation kokoa, näin ei itse asiassa olekaan, mutta useimmissa käytännön tilanteissa sama otos tuottaa mielipidemittauksessa yhtä suuren virhemarginaalin, oli tutkimuksen kohteena sitten 50 miljoonan tai 50 000:n kokoinen ihmisjoukko.
     
  2. Erisuuruisilla kannatusluvuilla on eri virhemarginaalit. Tämä merkitsee sitä, että mielipidemittauksen ilmoitettu virhemarginaali pätee sellaisenaan vain yhteen vertailussa mukana olevista puolueista (yleensä suurimpaan niistä). Luvun virhemarginaali on sitä suurempi, mitä lähempänä 50 prosenttia se on. Niinpä pienempien puolueiden kohdalla todellinen marginaali on ilmoitettua pienempi.

Ylen kyselyyn vastasi 1 946 henkilöä, joista 57,6 % eli 1 121 kertoi puoluekantansa. Alma Mediaa varten haastatelluista 1 500 henkilöstä kantansa ilmaisi 70,8 % eli 1 062. Näillä luvuilla saadaan yllä esitettyä kaavaa käyttäen laskettua seuraavat virhemarginaalit kullekin puolueelle:

Yle (n = 1 121) Alma Media (n = 1 062)
SDP ±2,4 % ±2,4 %
keskusta ±2,4 % ±2,4 %
kokoomus ±2,2 % ±2,3 %
vihreät ±2,0 % ±1,9 %
PS ±1,7 % ±1,9 %
vasemmistoliitto ±1,6 % ±1,7 %
RKP ±1,3 % ±1,2 %
KD ±1,1 % ±1,1 %
muut ±0,9 % ±1,1 %

Todellinen arvo voi olla myös virhemarginaalin ulkopuolella

On huomionarvoista, että virhemarginaalin laskemiseen käytetty luottamusväli on 95, ei suinkaan 100 prosenttia. Todellinen arvo voi siis löytyä myös virhemarginaalin ulkopuoleltakin. Yksittäisen puolueen kannatuksen tapauksessa tämän todennäköisyys on vain 5 %, mutta koska yhdestä mielipidemittauksesta ilmenee 9 eri numeroa  – 8 puolueen kannatusprosentit sekä ryhmä ”muut” – todennäköisyys sille, että ainakin yksi niistä on pielessä virhemarginaalia enemmän on 37 %. Todennäköisyys sille, että ainakin yksi joko Ylen tai Alma Median luvuista on virhemarginaalia kauempana todellisuudesta on jo 60 %, ja on lähestulkoon varmaa (todennäköisyys 99,6 %), että ainakin yksi Ylen vuoden aikana julkaisemista 12 mielipidemittauksista sisältää vähintään yhden kannatuslukeman, jonka todellinen arvo on virhemarginaalin ulkopuolella.

Yllä olevassa kuviossa on kuvattu se vaihteluväli jolle vihreiden ja perussuomalaisten todellinen kannatus Ylen ja Alma Median kannatusmittausten mukaan sijoittuu. Tavallinen, 95 prosentin luottamusväliin perustuva virhemarginaali on kuvattu täytettynä laatikkona, lisäksi katkoviivalla on osoitettu 99,7 prosentin luottamusväli (±3,0 keskihajontaa), jonka sisältä oikea arvo löytyy jo lähes varmasti.

Parikin prosenttiyksikköä on aika iso heitto kun puhutaan kymmenen prosentin tietämissä pyörivistä luvuista. Kuten ylempänä kuvatusta laskukaavasta ilmenee, virhemarginaalia olisi mahdollista pienentää otoskokoa kasvattamalla. Miksi näin ei tehdä mielipidemittausten tulosten tarkentamiseksi? Syy on yksinkertainen: raha. Virhemarginaalin puolittaminen vaatisi otoskoon nelinkertaistamista ja kustannukset kasvaisivat samassa suhteessa. Noin tuhannen vastaajan otos on vuosikymmenten saatossa päätetty tarkkuudeltaan median käyttöön riittäväksi kun otetaan huomioon myös mittausten teettämisen kustannus.

Lisäksi on syytä huomioida, että kaikki arvot virhemarginaalin sisällä eivät ole yhtä todennäköisiä. Virhemarginaalin olessa ±2,0 prosenttiyksikköä todellinen arvo on 68 prosentin todennäköisyydellä korkeintaan yhden prosenttiyksikön päässä keskiarvosta.

Alla oleva kuvio esittää vihreiden ja perussuomalaisten kannatuslukujen todennäköisyysjakauman. Todennäköisyys sille, että todellinen kannatusluku osuu kuvion keskellä olevalle tummennetulle alueelle on kussakin tapauksessa n. 4 % ja pienenee siitä etäännyttäessä. Kuvioelementtien kärjet kuvaavat 99,7 prosentin luottamusväliä.

Tämäkään kuvio ei silti vielä anna kovin hyvää vastausta siihen, mikä puolueiden todellinen kannatus on. Ylen yhden puolueen kannatukselle antama, kuviossa tummennettu todennäköisin arvo on aivan Alma Median todennäköisyysjakauman äärilaidalla ja päinvastoin.

Useamman mielipidemittauksen tulosten yhdistäminen

Usein tarkin tulos saadaan kun kahden tai useamman mielipidemittausten sisältämä tieto yhdistetään ja muodostetaan aineistosta uusi kuvio. Tähän on olemassa erilaisia tapoja. Maailmalla toimii useita mielipidemittausten tulosten yhdistelyyn erikoistuneita verkkosivustoja, joita kutsutaan mielipideaggregaattoreiksi (engl. poll aggregator). Ne ovat kehittäneet monimutkaisia, erilaisia paino- ja korjauskertoimia hyödyntäviä menetelmiään tarkoitukseen. Tunnetuin aggregaattoreista lienee FiveThirtyEight, jonka käyttämä malli pyrkii huomioimaan mm. joidenkin tutkimuksia tuottavien organisaatioiden taipumuksen systemaattisesti liioitella republikaanien tai demokraattien kannatusta. (Suomessa julkaistaan mielipidemittauksia niin harvakseltaan, ettei niiden aggregoinnista ole kehittynyt omaa journalismin lajiaan kuten esimerkiksi USA:ssa.)

Yllä olevassa kuviossa mielipidemittausten tulokset on yhdistetty kyselyiden vastaajamäärällä painotettuna, ilman muita kertoimia ja laskettu lopuksi uudet virhemarginaalit yhdistetyn vastaajamäärän mukaan. Laskelman perusteella vihreät olisi siis perussuomalaisia suositumpi, joskaan ei aivan yhtä pitkällä kaulalla kuin Ylen kyselyn alkuperäisten lukujen valossa. Tässä kaikkien puolueiden yhdistetyt luvut:

SDP 20,7 %
keskusta 19,9 %
kokoomus 17,3 %
vihreät 12,5 %
PS 10,3 %
vasemmistoliitto 8,2 %
RKP 4,7 %
KD 3,6 %
muut 2,9 %

Yhdistämiseen käyttämäni laskukaavat ovat hyvin yksinkertaisia:

jne.

Tällaisia yksinkertaisia kaavoja käyttäen laskelman tekeminen on helppoa, ja vaikka sillä onkin puutteensa verrattuna mielipideaggregaattorien käyttämiin hienostuneempiin malleihin, laskelman tulos kertoo kuitenkin puoluekannatuksesta enemmän kuin yksittäinen mielipidemittaus. Kun tämä ei ole tämän vaikeampaa, ihmettelen kyllä vähän, miksi media ei Suomessa vaikuta yhtään kiinnostuneelta tekemään puoluekannatuslaskelmia jotka perustuisivat useampaan kuin yhteen mielipidemittaukseen!

Virhemarginaali antaa liian ruusuisen kuvan mielipidemittauksen luotettavuudesta

Edellä esitetyissä laskelmissa ja mielipidemittauksen tutkimuksen virhemarginaalista puhuttaessa ylipäänsäkin lähdetään implisiittisesti siitä oletuksesta, että tutkimuksen otos on harhaton (engl. unbiased) tai ainakin, että otoksen mahdollinen vinouma on pystytty jollain tavalla oikaisemaan. Näin harvemmin todellisuudessa on.

Harhattomuus tarkoittaa sitä, että ainut tekijä joka vaikuttaa siihen, kenet populaatiosta poimitaan mielipidemittauksen tutkimusotokseen on sattuma. Jos nostamme erivärisiä palloja sisältävästä valtavasta pussista 1 121 palloa ja niistä 133 on vihreitä, voidaan virhemarginaalin laskentakaavaa käyttäen helposti selvittää, että kaikista pussissa olevista palloista on 95 prosentin todennäköisyydellä vihreitä 11,3–15,3 % (13,3 ± 2,0). Virhemarginaali kuvaa siis otantavirhettä (engl. sampling error), eli sitä, että satunnaisotantaan osuu harvoin aivan täsmälleen populaation sisäistä jakaumaa kuvaava joukko kohteita.

Mielipidemittauksiin vastaavat ihmiset eivät kuitenkaan ole yhtä helppo tutkimuskohde kuin pallot, vaan otantavirheen lisäksi tulosta vääristävät erilaiset otosharhat (engl. sampling bias):

  • Tutkimukseen ei ole käytännössä mahdollista poimia satunnaista joukkoa kaikista äänestysikäisistä suomalaisista, vaan otanta joudutaan tekemään esimerkiksi arpomalla haastateltavat numeropalveluun rekisteröityjen puhelinnumeroiden joukosta. Tutkimuksen otantakehikko (engl. sampling frame) on tällöin ne suomalaiset, joilla on julkinen puhelinnumero. Se ei ole täsmälleen sama joukko kuin kaikki äänestysikäiset suomalaiset, mistä johtuen kyselyyn sisältyy peittovirhe (coverage error).
  • Osalla suomalaisista on käytössään useampi kuin yksi puhelinnumero, joten heidän valikoitumisensa puhelinnumeroista arpomalla muodostettuun otokseen on keskimääräistä todennäköisempää. Jotkut taas voivat esimerkiksi vuorotyön vuoksi olla tutkimuksentekoaikana huonosti tavoitettavissa puhelimitse, jolloin heidän valikoitumisensa otokseen on vähemmän todennäköistä. Tällaisten syiden vuoksi puhelimitse tehtävään mielipidemittaukseen sisältyy myös valikoitumisharha (engl. selection bias).
  • Kaikki tutkimukseen valitut eivät syystä tai toisesta halua vastata kyselyyn. Varsinkin verkkokyselyissä vastauskato on yleensä iso ongelma ja sen aiheuttama vinouma (engl. non-response bias) potentiaalisesti suuri.

Otantavirheen ja erilaisten otosharhojen lisäksi tulosta vääristää vielä vastausharha (engl. response bias), joka on kattotermi erilaisille syille, joiden vuoksi osallistujien antamat vastaukset kyselyyn eivät aina täysin vastaa sitä, miten he todellisuudessa ajattelevat tai toimivat. Kaikki eivät esimerkiksi halua myöntää haastattelijalle kannattavansa rasistiseksi väitettyä puoluetta. Toisaalta haastateltava saattaa vastata eri kysymykseen kuin mikä häneltä on kysytty, esimerkiksi kuntavaalikannatusta koskevassa kyselyssä siihen, mitä puoluetta hän äänestäisi eduskuntavaaleissa.

Otantavirhe aiheuttaa mielipidemittauksen tuloksiin epätarkkuutta, jota voi pienentää otoskokoa kasvattamalla. Vinoutunut otos ja vastausharha sen sijaan vääristävät tuloksia usein tavoilla, joiden korjaaminen ei ole näin yksinkertaista. Jos esimerkiksi jonkin puolueen kannattajissa on enemmän vuorotöissä käyviä kuin muiden, tämän puolueen kannattajista valikoituu otokseen helposti todellista kannatusta pienempi osuus ja tämä vääristää puolueen kannatuslukuja.

Mielipidemittausten tekijät pyrkivät korjaamaan otosharhan aiheuttamaa virhettä esimerkiksi käyttämällä yksinkertaisen satunnaisotannan sijaan ositettua otantaa eli kiintiöpoimintaa (engl. stratified sampling), jolla huolehditaan siitä, että kaikkiin merkittäviin sosioekonomisiin ryhmiin (esim. miehet ja naiset, suomen- ja ruotsinkieliset) kuuluvien määrä otoksessa vastaa heidän osuuttaan väestössä. Tällaisista korjaavista toimista huolimatta mielipidemittausten tuloksiin sisältyy aina ilmoitetun virhemarginaalin lisäksi edellä mainittujen tekijöiden yhteenlasketun vaikutuksen aiheuttama metodologinen virhemarginaali. Termin kehittäjä Nate Silver arvioi yhdysvaltalaisissa mielipidemittauksissa sen olevan tavallisesti samaa suuruusluokkaa kuin tavallisen otantavirhemarginaalinkin. Tämä tarkoittaa, että karkeasti arvioiden yksittäisen mielipidemittauksen todellinen virhemarginaali voi olla kaksinkertainen ilmoitettuun nähden.

Tarinan opetus

Mielipidemittausten tuloksiin sisältyy runsaasti epävarmuutta. Todellinen virhemarginaali voi metodologiset tekijät huomioonottaen isoimpien puolueiden osalta olla kaksinkertainen tutkimuksen tekijän ilmoittamaan verrattuna ja osa todellisista kannatusluvuista voi löytyä jopa tämän laajemman virhemarginaalin ulkopuolelta. Niinpä reilusti virhemarginaalin sisään mahtuvat muutokset puolueiden kannatuksessa tai erot niiden keskinäisessä suosiossa ovat todennäköisemmin sattuman aiheuttamaa kuin merkki mistään todellisesta ilmiöstä, eikä niillä ole juurikaan uutisarvoa. Parempi käsitys puolueiden kannatuksesta saadaan, kun useampien mielipidemittausten tulokset yhdistetään.

Maarten Lambrechtsin mainio Rock ’n Poll -sivusto auttaa hahmottamaan, miten paljon otantavirhe vaikuttaa mielipidemittausten tuloksiin. Jokaisen politiikan toimittajan kannattaisi vilkaista sitä ennen kuin kirjoittaa uutisena, miten jonkin puolueen kannatus on muuttunut 0,4 prosenttiyksikköä edellisestä vertailusta.

Lisäkommentteja perussuomalaisten maahanmuuttoraportista käytyyn keskusteluun

Eilen julkaistua kirjoitustani perussuomalaisten ajatushautomon Suomen Perustan julkaisemasta, maahanmuuton vaikutuksia julkiseen talouteen käsittelevästä raportista Maahanmuutot ja Suomen julkinen talous on luettu ja jaettu kiitettävästi. Tätä kirjoittaessa sivulatauksia on kertynyt yli 12 000, millä määrällä juttu yltää blogimme historian luetuimmaksi. Maahanmuutto aiheena kiinnostaa mitä ilmeisimmin enemmän kuin vaikkapa Suomen karttakuvan kehitys. :)

Keskustelua kirjoituksesta on käyty mm. alkuperäisen artikkelin kommenttiosiossa. Raportin laatinut Samuli Salminenkin esitti joitakin kriittisiä huomautuksia tekemistäni tulkinnoista. Keskustelun sävy on ollut paikoin kipakka, mutta toistaiseksi jokseenkin asiallinen. Tänään Yle Uutiset teki myös nettijutun, jossa Salmiselta pyydettiin kommentteja esittämiini väitteisiin.

Käydyn keskustelun perusteella tulin siihen tulokseen, että on ehkä hyvä yrittää vielä tiivistää ja selkeyttää esittämiäni näkemyksiä, koska tuntuu että Salminenkaan ei aivan ole ymmärtänyt mihin kritiikkini kärki kohdistuu. Lisäksi kommenttiosiossa käydyn keskustelun myötä havaitsin erään minulta aiemmin huomaamatta jääneen seikan, joka vaikuttaa olennaisesti analyysiin.

Keskeneräisenä julkaistu selvitys on altis tulkintavirheille

Raportti on julkaistu ilmeisen keskeneräisenä. Vielä pari päivää ennen sen julkaisua perussuomalaisten Facebook-sivuilla julkaistiin video, jossa arveltiin, että torstaina joudutaan näyttämään eläinvideoita, koska selvitys ei valmistu ajallaan. Ilmeisesti paine saada jotain ulos johti siihen, että laajempi kokonaisuus pilkottiin kahteen osaan (raportin kakkososaa lupailtiin torstain tilaisuudessa julkaistavaksi tällä viikolla).

Ensimmäinenkään osa ei vaikuta aivan loppuun asti hiotulta. Esimerkiksi: ”Kaikki tutkimukseni merkittävimmät ja pääasialliset tulokset on on saatu 20–62-vuotiaista. 7–70-vuotiaiden vertailu oli sellainen kokeilu ja valmistelua elinkaarimallia varten”, sanoo Salminen Ylen haastattelussa. Hän on kuitenkin päättänyt otsikoida tätä kokeilua käsittelevän luvun ”Tulokset”, joten ei välttämättä ole pelkästään lukijan vika jos tämä erehtyy luulemaan, että nimenomaan tuo 7–70-vuotiaiden vertailu olisi tutkimuksen ydinainesta.

Jos tutkija itse olisi malttanut pitäytyä työikäisten vertailussa eikä ottaa 63–70-vuotiaita mukaan muutenkin kokonaisuudessa irralliselta tuntuvaan tutkimuksen lukuun 7, olisin ehkä minäkin lähestynyt aihetta toiselta kantilta. Nyt julkaistussa tekstissä on kaksi metodologisesti ja ikärajaukseltaan toisistaan poikkeavaa osiota, joiden keskinäinen suhde jää lukijalle epäselväksi ja altistaa väärintulkinnoille. (Tästä lisää tuonnempana.)

Alkuperäisessä kirjoituksessani oli kaksi pääpointtia:

  1. Koko aikusväestöä tarkasteltaessa Suomessa syntyneiden vaikutus julkiseen talouteen on huonompi kuin maahanmuuttajien
  2. Laskentatapa, joka tuottaa koko aikusväestön nettovaikutukseksi julkiseen talouteen –31,6 miljardia euroa kun todellisuudessa julkisen talouden alijäämä oli tarkasteluvuonna vain 2 miljardia on virheellinen

Käyn ne seuraavassa läpi Salmisen esittämän kritiikin valossa.

Koko aikuisväestöä tarkasteltaessa saadaan eri tuloksia kuin vain työikäisiä tarkasteltaessa

Salminen kritisoi tekemääni analyysiä Ylen haastattelussa näin: ”Koposen tekemässä vertailussa on myös se virhe, että hän on ottanut mukaan työikäisiä ja ei-työikäisiä.” Ei se ole mikään virhe, vaan toinen pääpointeistani.

Salmisen laskelma osoittaa – jos se on oikein tehty (ks. alempaa) – että työikäisen väestön keskuudessa maahanmuuttajien vaikutus julkiseen talouteen on huonompi kuin kantaväestön. Tätä en ole kiistänyt. Tämän tuloksen kiistämisen täytyisi perustua alkuperäisen datan uudelleenanalysoimiseen, ja kuten Salminen itse haastattelussa totetaa, hänellä on ollut käytössään ”rekisteriaineisto, jota ei ole ulkopuolisilla henkilöillä”. En ole ammatiltani tutkija, ja vaikka olisinkin, tällaisen analyysin tekemiseen menisi paljon enemmän aikaa kuin pääsiäsen pyhien luppohetket. Tulemme varmasti näkemään tulevaisuudessa erilaisia analyysejä työikäisten maahanmuuttajien aiheuttamista kustannuksista jotka joko vahvistavat tai kumoavat nyt julkaistun raportin tiedot, mutta minä jouduin olosuhteiden pakosta rajaamaan tarkasteluni sellaisiin kysymyksiin, joista on valmista dataa saatavilla.

Minun pointtini ei ollut, että työikäisten maahanmuuttajien tase olisi välttämättä jotain muuta kuin mitä Salminen sanoo, vaan nimenomaan että koko aikuisväestön tase on kantaväestöllä huonompi Salmisen omilla luvuilla laskettuna, koska kantaväestön ikärakenne on epäedullisempi kuin maahanmuuttajilla. Tämä selviää hyvin yksinkertaisella laskutoimituksella: otetaan Salmisen tutkimuksesta sivulta 82 löytyvästä taulukosta ulkomaalaisten ja suomalaisten nettovaikutukset henkeä kohden ja kerrotaan Tilastokeskuksen tietokannasta löytyvillä henkilömäärillä kotimaisten ja vieraiden kielten puhujien joukossa. Tämä luku voidaan vielä jakaa ihmisten kokonaismäärillä, jolloin saadaan keskimääräinen vaikutus henkeä kohden.

”Tämän henkilön kritiikin mukaan vertailuun voitaisiin ottaa vaikka mielivaltainen joukko 0–50-vuotiaat”, kritisoi Salminen Ylen haastattelussa. Eikä voitaisi. ”Kaikki aikuiset” ei ole mielivaltainen joukko. 

Nähdäkseni käyttämääni laskentatapaa kohtaan voidaan esittää kaksi perusteltua vasta-argumenttia:

  1. Tutkimuksen eläkeläisille lasketut luvut on laskettu 20–62-vuotiaille eläkeläisille, joten niitä ei voi käyttää yli 62-vuotiaiden eläkeläisten nettovaikutuksen arvioimiseen. Tämä on tietenkin periaatteessa ihan totta, mutta vanhempien eläkeläisryhmien nettovaikutus lienee pikemminkin 20–62-vuotiaita eläkeläisiä voimakkaammin negatiivinen pitempään kerrytetyn ja siten suuremman työeläkkeen, sekä suremman sairaanhoito- ja hoivapalvelujen tarpeen vuoksi. (20–62-vuotiaiden eläkeläisten ryhmässä on siis yli 62-vuotiaiden ryhmää enemmän ennenaikaiselle eläkkeelle jääneitä, joille ei ole kertynyt yhtä paljon työeläkettä kuin täyden työuran tehneille, ja vähemmän vanhustenhoidon palveluita tarvitsevia.) Jos käyttämäni laskentatapa siis vääristää tuloksia, se vääristää niitä luultavasti maahanmuuttajien kannalta epäedullisempaan suuntaan.
  2. Lasten jättäminen pois laskuista vääristää lukuja, koska lapset aiheuttavat julkisen talouden näkökulmasta vain kuluja ja maahanmuuttajilla on enemmän lapsia kuin kantaväestöllä. Tämäkin on sinänsä totta, mutta vaikutus on pieni. Laskisin mielelläni luvut koko väestölle, lapset mukaan luettuna, mutta se ei ole mahdollista käytössäni olevalla datalla. Lasten vaikutus ei ole kovin merkittävä, sillä itse asiassa ero ulkomaalaisten ja suomalaisten lapsimäärässä ei ole kovin suuri. Kotimaisten kielten puhujista 16,4 % on 0–14-vuotiaita, vieraiden kielten puhujista 18,0 %; eroa siis vain 1,6 %-yksikköä. (Vertailun vuoksi voidaan todeta, että eläkeläisiä on kotimaisten kielten puhujista 25,0 % ja vieraskielisistä 4,3 %; ero 20,7 %-yks.) Valistuneena arvauksena uskallan myös heittää, että yhden eläkeläisen nettovaikutus selvästi suurempi kuin yhden lapsen.

Salmisen laskutapa tuottaa absurdeja tuloksia

Kun Salmisen työikäiselle väestölle laskemat luvut laajennetaan koskemaan koko aikuisväestöä, saadaan koko väestön nettovaikutukseksi julkiseen talouteen –31,6 miljardia euroa.

Salminen kritisoi käyttämääni laskentatapaa blogin kommenttiosiossa näin:

Koponen esittää tutkimuksen sivun 82 keskiarvot oikein tekstissään. Jotta keskiarvoista saadaan oikeat summaluvut, ne pitää kuitenkin kertoa oikeilla henkilölukumäärille. Sivun 82 taulukon oikeat henkilölukumäärät on esitetty tutkimuksen liitetaulukossa 1 sivulla 97. Kertomalla sivun 82 taulukon keskiarvot liitetaulukon 1 henkilölukumäärillä päästään oikeisiin summalukuihin. Sen sijaan kertomalla sivun 82 taulukon keskiarvot joillain mielivaltaisilla henkilölukumäärillä, päästään sen sijaan ”absurdeihin lukuihin”, kuten Koponen tekee tekstissään.

Sivulla 82 ovat siis henkeä kohden lasketut nettovaikutukset ja sivulla 97 työikäisten (20–62-vuotiaiden) määrät. Tehdään Salmisen mieliksi laskelma, jossa sivun 82 luvut kerrotaan todellakin sivun 97 luvuilla.

Ensin ulkomailla syntyneet:

Opiskelijat Työlliset Työttömät Eläkeläiset Muut
henkeä 17 672 120 830 21 249 4 293 41 747
euroa/hlö –13 465 € +2 742 € –17 594 € –26 692 € –8 734 €
yhteensä –238,0 milj. € +331,3 milj. € –373,9 milj. € –114,6 milj. € –364,6 milj. €

Ulkomailla syntyneiden nettovaikutuksen loppusummaksi tulee –759,7 miljoonaa euroa, eli tuo paljon puhuttu 700 miljoonaa, joka näkyy kohteliaasti hieman pyöristetyn pienemmäksi perussuomalaisten puheissa.

Sitten suomalaiset. Jostain syystä suomalaisten kokonaismääriä eri ryhmissä ei sivun 97 taulukosta ilmene, vaan ainoastaan tutkimusotokseen sattuneiden määrät. Mutta eipä hätää, Tilastokeskuksen tietokannasta Väestö pääasiallisen toiminnan, sukupuolen, iän (1-v) ja vuoden mukaan 1987–2013 voidaan poimia kaikkien Suomessa asuvien määrät kohorteittain. Otetaan siis sieltä 20–62-vuotiaiden määrät vuonna 2011 ja vähennetään edellisestä taulukosta ilmenevät ulkomaalaisten määrät, niin saadaan suomalaisten luvut:

Opiskelijat Työlliset Työttömät Eläkeläiset Muut
henkeä 142 333 2 128 977 224 453 217 068 124 378
euroa/hlö –17 017 € +5 337 € –12 568 € –24 254 € –11 242 €
yhteensä –2 422,1 milj. € +1 1362,4 milj. € –2 820,9 milj. € –5 264,8 milj. € –1 398,3 milj. €

Suomalaisten yhteenlasketuksi nettovaikutukseksi saadaan –543,7 miljoonaa euroa.

Tämä on aivan yhtä absurdi lopputulos kuin alkuperäisen laskelmani –31,6 miljardia euroa, koska se tarkoitaa että työikäisen väestön nettovaikutus on kokonaisuutena negatiivinen (yht. –1,3 miljardia). Koska julkisen talouden sektoritilinpidon loppusumma oli vuonna 2011 –2 miljardia, ja pelkästään perus- ja esiopetuksen menot, muista lapsien aiheuttamista kustannuksista puhumattakaan olivat 2,5 miljardia, tämä tarkoittaisi, että yli 62-vuotiaiden eläkeläisten pitäisi maksaa keskimäärin enemmän veroja kuin mitä he saavat eläkkeitä ja julkisia palveluja, jotta summat menisivät tasan. Näin ei todellakaan ole, kuten jokainen hyvin ymmärtää.

On siis ilmeistä, että Salmisen käyttämä laskentatapa on pielessä, koska se hukkaa merkittävän osan tuloista johonkin.

Laskelma ei huomioi työnantajan eläkemaksuja

Blogin kommenttiosiossa käydystä keskustelusta hoksasin lopulta yhden merkittävän tuloerän, joka on laskelmasta jätetty pois: työnantajan eläkemaksut. Koska tutkimuksen 7-luvussa (joka on siis nimetty ”Tulokset”) sanotaan ”olen ottanut julkisen talouden nettovaikutuksia laskiessani mukaan tulopuolelle myös työnantajien maksamat eläkevakuutusmaksut”, oletin tietysti yksinkertaisena ihmisenä, että nämä eläkemaksut olisi huomioitu myös edeltävissä luvuissa, joissa arvioidaan nettovaikutuksia yksilötasolla. Näin ei tarkemmalla lukemisella kuitenkaan ole. Sivulla 25 tosiaan sanotaan:

Tutkimuksen ensimmäisessä osassa (toteutuneet julkisen talouden tulot ja menot) ei ole ilman erillistä mainintaa mukana työnantajien maksamia pakollisia eläkevakuutusmaksuja, sillä ne ovat tutkimuksen määritelmien kannalta hankalia, sillä niitä ei peritä henkilöiltä (palkansaajilta) itseltään. Lisäksi tutkimuksen ensimmäisessä osassa keskityn lähinnä työikäisten, 20–62-vuotiaiden väestöjen tutkimiseen, jolloin mukana on suurin osa työeläkejärjestelmän henkilöiltä saamista tuloista, muttei toisaalta menopuolta maksettujen eläkkeiden muodossa.

Pahoittelen, etten ensimmäisellä lukemisella havainnut tätä rajausta vaan erheellisesti kuvittelin, että työnantajan eläke- ja sosiaaliturvamaksut olisi otettu mukaan julkisen sektorin tuloina. Työeläkeyhtiöt luetaan Suomessa budjettitalouden näkökulmasta julkiseen sektoriin ja nämä maksut ovat jo määritelmällisestikin osa verokiilaa, joten Salmisen tekemä ratkaisu on poikkeuksellinen, ja riittää jo yksinään selittämään tuon ulkomaalaisten 759,7 miljoonan euron negatiivisen nettovaikutuksen.

Paljonko työeläke- ja sosiaaliturvamaksujen jättäminen pois vääristää tuloksia?

VATT:n raportista Maahanmuutajien integroituminen Suomeen ilmenee (kuvio 6b), että maahanmuuttajien keskimääräiset palkka- ja yrittäjätulot aikuista (15–70 v.) kohden olivat suuruusluokkaa 13 500 €/v. Tämä tarkoittaa yhteensä noin 3 miljardin summaa, josta voidaan arvioida maksetun Salmisen laskelmista puuttuvia eläke- ja sosiaaliturvamaksuja suunnilleen… 750 miljoonaa euroa!

Korostettakoon vielä, että vaikka työnantajan sosiaaliturvamaksut huomioitaisiin laskelmassa, alkuperäisestä n. 30 miljardin heitosta väestön laskennallisen nettovaikutuksen ja toteutuneen julkisen sektorin alijäämän välillä ne selittäisivät vain n. 17 miljardia. Vielä puuttuu 13 miljardia. Raportissa käytetty laskentatapa tuottaisi siis edelleen aivan liian synkkiä lukuja, vaikka sitä korjattaisiin huomioimaan kaikki verokiilan osat julkisen sektorin tuloina, kuten tietenkin pitäisi.

Kun kerran yhteisesti kulutetut hyödykkeetkin on pystytty jyvittämään eri väestöryhmille, niin eiköhän myös sellaiset tulotkin voida ottaa mukaan laskelmaan, joita ei pystytä suoraan kohdistamaan. Luontevaa olisi vaikka vähentää nämä tulot yhteisesti kulutetuista menoista ennen menojen jyvitystä.

tl;dr

Suomalaissyntyisten vaikutus julkiseen talouteen on henkeä kohden huonompi kuin maahanmuuttajien johtuen erilaisesta väestörakenteesta.

Jos rajataan tarkastelu vain työikäiseen väestöön, saattaa hyvin olla juuri niin kuin Salminen sanoo, eli että työikäisten maahanmuuttajien nettovaikutus on työikäistä kantaväestöä huonompi ja joidenkin maahanmuuttajryhmien erittäinkin huono. Tämä on itsessään kiinnostava tulos, jolla on myös poliittisia implikaatioita.

Salmisen laskelmasta puuttuu kuitenkin merkittävä tulopuolen menoeriä, mm. työnantajan eläkevakuutusmaksut, jonka vuoksi esimerkiksi Matti Putkosen useaan kertaan toistama väite maahanmuuttajien aiheuttamista 700 miljoonan vuosittaisista kuluista ei pidä paikkaansa.

Perussuomalaisten maahanmuuttoraportin loppusummat perustuvat silmänkääntötemppuun

Perussuomalaisten ajatushautomon laatiman selvityksen loppupäätelmä nojaa tarkoitushakuiseen väestörajaukseen, jolla vanhimmat ikäryhmät siivotaan pois tilastoista. Kun tarkasteluun otetaan aikusväestö kokonaisuudessaan, kantaväestön nettovaikutus julkiseen talouteen on raportin omilla luvuilla laskettuna maahanmuuttajia huonompi.

Perussuomalaisten ajatushautomo Suomen Perusta julkaisi ennen pääsiäistä maahanmuuton vaikutuksia julkiseen talouteen käsittelevän raportin Maahanmuutot ja Suomen julkinen talous. Tutkimus pyrkii selvittämään maahanmuuttajien aiheuttamat ”julkisen talouden nettovaikutukset”, eli paljonko jää loppusummaksi kun eri maahanmuuttajaryhmien tuottamasta taloudellisesta hyödystä vähennetään aiheutetut kustannukset.

Aivan alkajaisiksi täytyy kiittää raportin laatinutta Samuli Salmista hänen tekemästään mittavasta työstä. Selvitys lienee tähän mennessä yksityiskohtaisin Suomessa tehty yritys arvioida maahanmuuton kokonaiskustannuksia. Metodologisesti se on varsin läpinäkyvä ja helposti sellaisenkin henkilön arvioitavissa, joka ei ole kvantitatiivisen yhteiskuntatutkimuksen asiantuntija (esim. allekirjoittanut).

Harmi kyllä, tutkimuksen loppupäätelmänä mm. raportin julkistustilaisuudessa esitetty arvio – maahanmuutto kokonaisuutena aiheuttaa Suomelle 700 miljoonan vuosittaiset kustannukset, kun taas kantaväestön nettovaikutus henkeä kohden on lähellä nollaa – on saatu aikaiseksi tilastollisella silmänkääntötempulla.

Ikärajaus kaunistelee suomalaissyntyisten lukuja

Tutkimuksen alkuosassa käsitellään 20–62-vuotiaiden, ulkomailla syntyneiden aiheuttamaa nettovaikutusta henkeä kohden viidessä eri ryhmässä: työlliset, työttömät, opiskelijat, eläkeläiset ja muut. Luvussa 7 tarkastellaan eri maahanmuuttajaryhmien kokonaisvaikutusta ikäryhmässä 7–70-vuotiaat. Jälkimmäisessä tarkastelussa ovat mukana myös toisen polven maahanmuuttajat, eli ne joilla on ainakin yksi ulkomailla syntynyt vanhempi.

Tutkimuksessa käytetyistä ikärajauksista varsinkin 7–70 vuotta on epätavallinen, ja ongelmallinen kahdesta syystä:

Tilastokeskuksen avoimista aineistoista ei ole mahdollisuutta tehdä poimintaa etnisen taustan mukaan eri pääasiallisen toiminnan ryhmiin (opiskelijat, työlliset jne.) kuuluvien määristä näillä ikärajauksilla, eivätkä ne ole muissakaan suomalaisissa tutkimusjulkaisuissa kovin yleisiä. Yleisemmin käytetyn ikärajauksen (vaikkapa 15–64-vuotiaat) soveltaminen tekisi tutkimuksen tuloksista paremmin vertailukelpoisia muihin tilastoihin ja tutkimustietoon.

Varsinainen silmänkääntötemppu piilee kuitenkin siinä, että ikähaitarin katkaiseminen asteikon yläpäästä kaunistelee suomalaistaustaisten nettovaikutusta ulkomaalaistaustaisiin verrattuna dramaattisesti.

Suomessa asuu yli 1,1 miljoonaa yli 62-vuotiasta suomea, ruotsia tai saamea äidinkielenään puhuvaa, kun taas vieraskielisistä vain n. 10 000 kuuluu tähän ikäryhmään. Yli 70-vuotiaiden osalta vastaavat luvut ovat 620 000 ja 4 000. Käytännöllisesti katsoen kaikki yli 70-vuotiaat ovat eläkeläisiä ja raportin lukujen mukaan juuri eläkeläisten nettovaikutus julkiseen talouteen on kaikkein voimakkaimmin negatiivinen.

Eräs painavimmista työperäisen maahanmuuton puolesta esitetyistä argumenteista on, että Suomen väestö vanhenee jatkuvasti ja eläkeläisten määrä suhteessa työikäisiin kasvaa huolestuttavasti. Jättämällä laskuista 620 000 eläkeläistä tämä näkökulma saadaan kätevästi ohitettua, mutta kovin älyllisesti rehellisenä tällaista lähestymistapaa ei voi pitää.

Uusi laskelma perustuu raportin omiin lukuihin

Raportin sivulta 82 löytyy taulukko, jossa on laskettu kymmeneen suurimpaan maahanmuuttajaryhmään (syntymävaltion perusteella) kuuluvien julkisen talouden nettovaikutukset henkeä kohden:

Opiskelijat Työlliset Työttömät Eläkeläiset Muut
Somalia –21 208 € –2 998 € –17 740 € –32 609 € –15 945 €
Irak –15 462 € –4 174 € –20 842 € –21 786 € –14 944 €
Ruotsi –14 905 € 3 954 € –20 032 € –31 933 € –14 228 €
Ent. Jugoslavia –13 630 € 765 € –17 874 € –22 560 € –11 698 €
Turkki –11 953 € 1 048 € –15 974 € –18 005 € –9 225 €
Thaimaa –10 913 € –2 326 € –16 332 € –30 125 € –8 712 €
Ent. Neuvostoliitto –12 089 € 2 191 € –17 615 € –23 700 € –8 443 €
Viro –12 630 € 2 309 € –18 041 € –28 223 € –6 612 €
Kiina –10 473 € 3 374 € –13 710 € –26 723 € –5 089 €
Saksa –11 817 € 8 516 € –15 095 € –20 904 € –4 708 €
Kaikki ulkomaat –13 465 € 2 742 € –17 594 € –26 692 € –8 734 €
Suomi –17 017 € 5 337 € –12 568 € –24 254 € –11 242 €

Yhdistin tämän taulukon henkilöä kohden lasketut luvut Tilastokeskuksen avoimiin tietoihin eri ryhmiin kuuluvien määristä siten, että kaikki 15 vuotta täyttäneet otetaan mukaan. Laajensin tarkastelun samalla kaikkiin ulkomaalaisryhmiin ja selvitin, miten suomalaiset kunnat sijoittuisivat suhteessa niihin. Kunnista kerrotaan myös kuntatyyppi tilastollisen kuntaluokituksen mukaan ja perussuomalaisten kannatus viime kunnallisvaaleissa (2012). Näin syntynyt interaktiivinen visualisointi löytyy alta. (Visualisointi ei välttämättä näy oikein kaikilla vanhemmilla selaimilla.)

Haluan vielä erikseen korostaa, että kaikki visualisoinnin tiedot perustuvat perussuomalaisten omassa maahanmuuttoselvityksessä esitettyihin lukuihin (taulukko yllä) ja Tilastokeskuksen avoimiin aineistoihin.


Grafiikassa on sinisellä värillä korostettu ne kunnat, joissa perussuomalaisten kannatus oli kunnallisvaaleissa vähintään 20 %. (Kynnysarvoa voi muuttaa vasemman alakulman säätimellä.) Kansallisuus- ja kieliryhmistä korostettuina näkyvät ne, joille on Suomen Perustan selvityksessä laskettu omat luvut. Muiden ryhmien nettovaikutus on laskettu ”kaikki ulkomaat” -rivin lukujen perusteella.

Kun tarkasteluun otetaan koko 15 vuotta täyttänyt väestö, havaitaan että vieraskielisten vaikutus julkiseen talouteen on perussuomalaisten käyttämällä laskentatavalla negatiivinen (−5 804 €  henkeä kohden), mutta kotimaisten kielten puhujien vaikutus on vielä tätäkin negatiivisempi (−7 039 €). Koko eläkeläisväestön ottaminen mukaan tarkasteluun mielivaltaisen 70 vuoden ylärajan soveltamisen sijaan kääntää siis selvityksen alkuperäisen tuloksen päälaelleen: maahanmuuttajien vaikutus julkiseen talouteen on positiivisempi kuin suomalaissyntyisten.

Täsmennys 6.4. klo 16:55: 70 vuoden ikäraja ei ole täysin mielivaltainen, vaan ilmeisesti juontuu käytetystä aineistosta (Tilastokeskuksen yhdistetty työntekijä-työnantaja-aineisto, FLEED), joka sisältää vain 15–70-vuotiaat. Kun aineiston perusteella on kuitenkin pystytty laskemaan nettovaikutus henkeä kohden myös eläkeläisille ja etenkin kun yli 70-vuotiaita maahanmuuttajia Suomessa on vain n. 4 000, olisi jonkinlainen estimaatti voitu ja pitänyt tehdä myös yli 70-vuotiaiden ryhmälle.

Manner-Suomen kunnista vain noin kymmenesosa on nettovaikutukseltaan asukasta kohden vieraskielisten keskiarvoa parempi. Niistä kunnista, joissa perussuomalaisten kannatus oli kunnallisvaaleissa vähintään 20 % ei yksikään yllä vieraskielisten ryhmien keskitasolle ja vain yhden (Kaustinen) nettovaikutus on suomenkielisten keskitasoa positiivisempi.

Onko oikein arvottaa kuntia näin suoraviivaisesti pelkän asukasta kohden lasketun taloudellisen hyödyn mukaan? Pitäisikö eläkeläiset ja perussuomalaisten kannattajat ajaa pois maasta talouslukuja rumentamasta? Ei pitäisi. Ihmisarvoa tai vaikkapa kansallismaiseman arvoa ei mitata rahassa, eikä rahallinen mittari aina huomioi kunnolla kaikkea välineellistäkään hyötyä. Hyvin yksinkertaisena esimerkkinä jälkimmäisestä mainittakoon eläkeläisten apu lastenlasten hoidossa – tällä on hyvin konkreettinen merkitys kansantalouden kannalta, mutta sen täsmällinen hinnoittelu on työlästä, eikä sitä siksi yleensä laskelmissa huomioida.

Myöskään pakolaisia ei Suomeen oteta siksi, että he hyödyttäisivät julkista taloutta, vaan koska on oikein auttaa hädänalaisia. Perhesiteiden kautta maahamme tulevat taas ovat ennen kaikkea jonkun läheisiä ja vasta toissijaisesti työvoimaa ja veronmaksajia. Toki on järkevää pyrkiä hyödyntämään maassa jo asuvien taloudellinen potentiaali, mutta sitä tuskin voimme muuttaa, että juuri maahan saapuneet pakolaiset ovat julkisen talouden näkökulmasta vastakin menoerä. Ja mitä sitten? Niin ovat sairaat ja vanhuksetkin. Ei se tarkoita, että nämä ihmisryhmät pitäisi jättää oman onnensa nojaan.

Selvityksessä käytetty laskentatapa tuottaa absurdeja tuloksia

Työperäisen maahanmuuton kohdalla kysymys taloudellisista vaikutuksista on relevantti, eikä se toki merkityksetön ole muidenkaan maahanmuuttajaryhmien osalta. Harmillisesti on kuitenkin todettava, että perussuomalaisten selvitys ei anna maahanmuuton kustannuksista tai hyödyistä kunnollista kuvaa, koska käytetty laskentatapa on selvästi virheellinen.

Lähes kaikki etniset ryhmät jäävät raportin lukujen mukaan nettovaikutukseltaan selvästi pakkasen puolelle kun myös yli 70-vuotiaat otetaan mukaan laskelmaan. Ainut ryhmä, joka pääsee rimaa hipoen plussalle on Saksan kansalaiset (+12 €). Selvityksen lukujen perusteella voidaan laskea, että 15 vuotta täyttäneiden kotimaisten kielten puhujien yhteenlaskettu nettovaikutus julkiseen talouteen on –30,4 miljardia ja vieraskielisten –1,2 miljardia.

Tämä tarkoittaa sitä, että kaikkien Suomessa asuvien 15 vuotta täyttäneiden yhteenlaskettu nettovaikutus julkiseen talouteen on –31,6 miljardia. Tulos on täysin absurdi ja kertoo, että laskentatapa on pahasti pielessä. Julkisen sektorin alijäämä vuonna 2011 oli todellisuudessa vain 2 miljardia euroa. Käytetty laskentatapa hukkaa siis johonkin melkein 30 miljardia laskelman plussapuolelle kuuluvia eriä (tai liioittelee menoja).

Tästä n. 7 miljardia koostunee laskelmasta tietoisesti pois jätettyjen verojen kuten yhteisö-, kiinteistö-, perintö- ja varainsiirtoverojen osuudesta, mutta ne huomioidenkin laskelmaan jää ammottava aukko. Koko väestön yhteenlasketun nettovaikutuksen pitäisi suunnilleen vastata julkisen talouden sektoritilinpidon loppusummaa (–2 miljardia). Kun otetaan huomioon, että 0–14-vuotiaat tuottavat julkiselle sektorille pääosin menoja, yhteenlasketun nettovaikutuksen pitäisi yli 15-vuotiaiden osalta olla luultavasti jopa jonkin verran plussan puolella. Jos tuloja tai menoja ei pystytä kohdistamaan väestöryhmittäin, ne pitäisi jakaa koko väestön kesken jossain soveliaassa suhteessa, kuten tutkimuksessa on tehty esimerkiksi välillisten verojen ja kollektiivisesti kulutettujen palveluiden (esim. maanpuolustuksen) kohdalla, eikä jättää kokonaan pois, kuten nyt on tehty.

Lisäys 7.4. klo 12:02: Vaikuttaa siltä, että selvityksessä ei ole huomioitu työnantajan eläke- ja sosiaaliturvamaksuja ainakaan 20–62-vuotiaiden henkilöä kohden lasketuissa summissa. Tämä selittäisi noin 17 miljardia tuosta 31,6 miljardin aukosta. Rajaus on todella erikoinen, koska jos maksetut eläkkeet on kuitenkin laskettu mukaan menopuolelle niin totta kai eläkemaksut kuuluvat tulopuolelle. Se, että ne maksaa nimellisesti työnantaja, ei poista sitä että eläkemaksut ovat normaalimääritelmän mukaan osa verokiilaa.

20–62-vuotiaiden maahanmuuttajien ryhmässä työllisiä on selvityksen lukujen mukaan n. 120 000. Raportista ei ilmene, millainen maahanmuuttajien keskimääräinen palkkataso on, mutta tässä nopea laskelma siitä, paljonko työnantajan eläke- ja sosiaaliturvamaksuja tämän suuruiselta ryhmältä kertyisi eri keskimääräisillä kuukausipalkoilla:

• 1 500 €/kk: n. 550 milj. €/v.
• 2 000 €/kk: n. 750 milj. €/v.
• 2 500 €/kk: n. 900 milj. €/v.
• 3 000 €/kk: n. 1,1 mrd €/v.

Väite maahanmuuton 700 miljoonan vuosikuluista julkiselle sektorille näyttää siis perustuvan siihen, että laskelmassa on jätetty osa julkisen sektorin tuloista (eläke- ja sosiaaliturvamaksut) huomioimatta.

Vaikuttaa lähestulkoon siltä, että selvitystä varten on ensin kehitetty laskentatapa, jolla saadaan maahanmuuton kokonaisvaikutus painettua varmasti miinukselle, ja kun on huomattu, että se painaa suomalaissyntyisten loppusumman vielä maahanmuuttajiakin pahemmin pakkaselle, on korjausliikkeenä leikattu vanhimmat ikäluokat tarkastelusta pois. Tuskinpa tutkimuksen laatija sentään aivan näin häikäilemättömän tarkoitushakuisesti on toiminut, mutta kyllä lukujen käsittely pönkittää perussuomalaisten maahanmuuttopoliittista agendaa voimakkaammin kuin mihin niiden objektiivinen tarkastelu mielestäni antaisi aihetta.

Metodologia ja lähteet

Lopuksi vielä muutama sana itse tekemistäni valinnoista ja käytetyistä aineistoista.

Aineistoni ovat perussuomalaisten kannatuslukuja lukuun ottamatta samalta vuodelta (2011) kuin alkuperäisen selvityksen luvut. Kunnallisvaalien 2012 tulos valikoitui aineistoksi vuoden 2011 eduskuntavaalien sijaan, koska kunnallisvaaleissa vaalitulos on helposti saatavissa kunnittain kun taas eduskuntavaaleissa kuntakohtaiset tulokset pitäisi työläästi koostaa äänestysaluekohtaisia tietoja yhdistellen.

Suomen Perustan selvityksessä maahanmuuttotausta on määritelty henkilön tai hänen vanhempiensa syntymämaan mukaan. Tätä tietoa ei Tilastokeskuksen avoimista aineistoista löydy, joten olen käyttänyt visualisoinnissa sen sijaan tietoa pääasiallisesta toiminnasta kansallisuuden ja kielen mukaan. Kansallisuus vastannee siedettävällä tarkkuudella ensimmäisen sukupolven maahanmuuttajan syntymämaata ainakin tuoreemmissa maahanmuuttajaryhmissä ja kieli vuorostaan kertoo likimääräisesti ensimmäisen ja toisen sukupolven maahanmuuttajien kokonaismäärän (sikäli kun kieli voidaan yhdistää yksittäiseen taustamaahan).

Niiden etnisten ryhmien osalta, joille raportissa on laskettu omat luvut (taulukko s. 82), olen käyttänyt näitä lukuja. Muiden osalta laskelman pohjana ovat olleet ”kaikki ulkomaat” -ryhmän luvut. Kielten osalta olen hyödyntänyt tietoa Suomessa asuvien eri kielten puhujien alkuperämaista; esimerkiksi suurin osa Suomen albaniankielisistä on kotoisin entisestä Jugoslaviasta vaikka kieltä puhutaan myös Albaniassa, joten tämän kieliryhmän laskelmassa on käytetty entisen Jugoslavian lukuja. Sen sijaan esimerkiksi arabian puhujat ovat kotoisin useista eri taustamaista, joten tämän ryhmän osalta laskelma perustuu ”kaikki ulkomaat” -ryhmän lukuihin. Tästä säännöstä hieman poiketen ruotsinkielisille on käytetty Suomessa syntyneiden lukuja ja saksankielisille Saksassa syntyneiden. Ruotsin kansalaisille sen sijaan on käytetty Ruotsissa syntyneiden lukuja.

Lähteenä on käytetty Maahanmuutot ja Suomen julkinen talous -raportin lisäksi seuraavia Tilastokeskuksen avoimesta StatFin-tilastotietokannasta löytyviä aineistoja:

Koostetiedosto csv-muodossa löytyy täältä.

Kirjoitin myös jatkoartikkelin aiheesta.

Are carbohydrates really the culprit behind the obesity epidemic?

Obesity is a global health problem. It is obiviously linked to diet in some way, but the exact nature of this link is the subject of volumes of research, and also of heated exchanges online. One school of thought, occasionally exhibiting quasi-religious tendencies in some of its advocates, claims that the obesity epidemic is mainly caused by our diet being too rich in carbohydrates from cereals and other such sources, as well as vegetable oils. As a solution, they advocate changing to a diet rich in animal fats, meat, eggs and so on.

Inspired by the coverage of a recent piece in The Lancet about rising obesity rates, as well as a somewhat uncritical book review in The Economist I decided to see myself if the publicly available data on obesity and diets could be tortured into confessing something on the issue.

I need to emphasize that this is not a scientific study. Describing the methods used as rigorous would be a stretch, to say the least. A few potential problems with the data and with my handling of it are outlined in the end of this article, and the list is by no means exhaustive. What this is, is a bit of light-weight data journalism that will hopefully inspire discussion and possibly more serious research into the data.

I used this WHO data on obesity (the same used by the Lancet authors), combined with agricultural statistics from FAO to see if the number of overweight and obese people in a country was correlated with the intake of various foods.

To capture the effect of changing diets, I used the data from several different years within a single country as separate data points where historical data was available. If you disagree with this choice, you can switch the view to show only the most recent data.

The end result is below, an interactive scatterplot that shows how the consumption of various foods correlates with the number of overweight and obese people in each country. The idea of the visual presentation is that the reader can look at the full dataset and not need to rely on single numbers such as averages or correlation coefficients.

In light of these numbers, there is no evidence that high cereal consumption is linked with obesity on a country level. If anything, the correlation between the share of overweight adults and cereal consumption is mildly negative (r = –0.18). With starchy roots (such as potato) there is no correlation whatsoever (r = 0.08).

The correlation between vegetable oils and overweight is moderate (r = 0.33), though not much greater than with the consumption of animal fats (r = 0.23). It should be noted, though, that the consumption of animal fats is very small in most non-Western countries, so not very many conclusions can necessarily be drawn from this comparison.

The strongest correlation in the data with the share of overweight adults is with meat consumption (r = 0.5). Not surprisingly, the correlation with sugar and sweeteners is also reasonably strong (r = 0.43).

The correlation with meat consumption and obesity is probably at least partially due to the fact that higher meat consumption is typical of higher living standards overall, which also often means a higher total calorie intake and less physical work. The existence of these types of confounding variables is amply demonstrated by the fact that the correlation of overweight with the consumption of fruits is also moderate (r = 0.32). Practically no one believes eating fruits makes you fat, so the explanation is probably that fruit intake is also simply correlated with higher living standards.

So what’s the take-home messge? I would interpret the data so that no single group of foods is responsible for the obesity epidemic by itself, certainly not cereals. This sort of population-level comparison using somewhat patchy data can hardly settle the matter by itself, but I would still argue that if cereals (and carbohydrates in general) were really so bad, there should be a sliver of the effect visible in the data even on this coarse level. Which there isn’t, as you can see.

The jury is still out on vegetable oils, but if we want to explain away the high correlation of meat consumption with the share of overweight adults, I would argue similar confounding factors are to be found here; the use of vegetable oils in the West has risen with the overall rise of living standards. So if you want to argue that the correlation of obesity with meat intake is spurious, the same should probably said of the clearly weaker correlation with vegetable oils – and vice versa.

The next step would be to compare the calorie intake from different kinds of foods instead of the absolute numbers (kg/capita/year), which could possibly help to overcome the fact that a rise in living standards affects both the total calorie intake and the mix of different types of foods consumed.

Potential sources of error

Apart the whole project being executed within the span of two working days, and by a designer with no scientific training to speak of, there are some specific details in the data and how it was processed that can be sources of error.

FAO’s data shows the “food supply”, that is, the food theoretically available for human consumption, not the actual food intake. Factors such as wastage are not taken into account, and may vary from country to country.

WHO’s data on obesity is collected using methods and samples differing from country to country and may thus not be directly comparable. There were some examples in the data where a change in the numbers was clearly an artifact of the data collection process, not representative of the change in the facts on the ground; for example the share of overweight people dropping from 59.8 to 46.2 percent in a single year in Australia 2000–2001. In such cases the most recent data was assumed to be reliable, and the older data was discarded.

The selection of countries for which the data is available is much better representative of high-income Western countries than world’s other regions, which is bound to effect the overall picture.

Because the number of years for which historical data was available varied greatly between different countries, not all years for which data was available were used. A more balanced subset was instead attempted by picking only some years, far apart enough to exhibit clear changes in dietary patterns. The method used is extremely arbitrary, and probably effects the end result.

The final dataset used for the visualization was created with a custom Python script from messy original data by a non-programmer, a process which is a highly probable source of error. The final data was superficially examined for flaws (and the script corrected several times accordingly), but it has not been rigorously and thoroughly scrutinized in the way required for e.g. scientific publication and thus scripting errors remain a potential source of errors in the data. For those interested in assessing the data quality themselves, the processed data can be downloaded as a tsv file (which is similar to csv, except using tabs instead commas as separators) here.

Kiitokset taas seminaarivieraille!

Tieto näkyväksi -seminaarimme järjestettiin 20.9. toisen kerran. Paikka oli jälleen Kauppakorkeakoulun suuri juhlasali. Kuten viime vuonna käyneet muistavat, ensimmäinen seminaari oli satelliittitapahtuma OKFestivalille, jossa osa järjestäjistä oli myös pitämässä ohjelmaa. Tämänvuotinen pidettiin itsenäisenä tapahtumana, joka järjestettiin Aallon ja sponsorien voimin. Osa viimevuotisista kävijöistämme saapui festivaalin lippuvaihtojärjestelyn kautta, ja muistan kesällä miettineeni, saammeko tällä kertaa vastaavasti yleisöä ilman suuremman tapahtuman tuomaa vetoa. Huoli oli turha, sillä tapahtuma myytiin loppuun.
Koska ohjelmaa oli kahdella kielellä, päätimme tänäkin vuonna jakaa tapahtuman aamu- ja iltapäivän osioihin, joista ensimmäinen oli suomeksi ja toinen englanniksi. Tapahtuman videotaltioinnista ja striimauksesta kiitämme Aleksi Mustosta, joka laittoi ohjelman nähtäväksi Bambuser-palveluun.

Kyyriainen_7646

Kun vieraat olivat istuutuneet, seurasi avajaispuheenvuoro. John Nurmisen säätiön hallituksen puheenjohtaja, merenkulkuneuvos Juha Nurminen osoittautui todelliseksi asiantuntijaksi puheessaan karttojen ja visualisointien yhteiskunnallisesta vaikuttavuudesta. Esityksessä oli uutta ja kiinnostavaa tietoa kartografian historiaakin tunteville. Nykyajan esimerkki oli kuva Itämeren levätilanteesta, joka tekee selväksi ympäristöongelman laajuuden. Puhdas Itämeri -hankkeeseen voi tutustua projektin sivuilla.

Hannu Kyyriäinen on infografiikkaan erikoistunut graafinen suunnittelija. Hänen työnsä Suomen Kuvalehdessä on maamme mittapuulla poikkeuksellisen korkeatasoista ja monimuotoista. Hänen visualisointinsa Palestiinan aluemenetyksistä sijoittui pronssisijalle arvostetussa Malofiej-kilpailussa aiemmin tänä vuonna, ja esityksessään hän kävi läpi monia muitakin mielenkiintoisia töitään. Niihin voi perehtyä tarkemmin hänen Flickr-sivuillaan.

Vaajakallio_7711
Kirsikka Vaajakallio esittelee haastatteluaineistoa

Kirsikka Vaajakallio on palvelumuotoilija, jonka työtapa on yhteissuunnittelu. Siihen kuuluu tuotteen tai palvelun varsinaisen käyttäjän mukaan ottaminen jo suunnitteluprosessin alkuvaiheissa. Saman tavan soisi yleistyvän myös tiedon esittämisessä, sillä kokeneinkin suunnittelija ei vain tule ajatelleeksi kaikkia yleisön tarpeita. Esityksessään Vaajakallio kertoi joistakin käyttämistään työskentelymenetelmistä, joista ehkä kiinnostavimpia olivat suunnittelupelit. Ne ovat tilanteeseen räätälöityjä seurapelejä, joiden avulla suunnitelutyöhön tottumattomat voivat jakaa ideoitaan helpommin.

Markku Mikkola-Roos on Suomen ympäristökeskuksen biodiversiteettiyksikön vanhempi tutkija, joka on erikoistunut lintujen suojeluun. Hänen puheenvuoronsa käsitteli tunnistusoppaita perinpohjaisella tavalla. Olin itse yllättynyt, kuinka vanhoja monet alan konventiot ovat. Historialliseen läpikäyntiin kuului tietenkin myös arvio nykytilanteesta. Siinä kävi ilmi, kuinka valokuvia käyttävillä oppailla on omat rajoituksensa piirrettyihin havainnekuviin verrattuna.

Peltomaki_7867
Tuomas Peltomäki kertoo verkostojen hienoudesta

Datajournalisti Tuomas Peltomäki esitteli puheenvuorossaan seikkaperäisesti suomalaista lobbausverkostoa esittävää visualisointityötään. Twitterissä esitystä luonnehdittiin stand-upiksi, ja siinä oli myös omasta mielestäni terävää ja mukaansatempaavaa huumoria. Työhön vaadittu datamäärä oli päätähuimaava ja sen käsittely vaati uusien työtapojen kehittämistä ja vanhojen soveltamista. Visualisointiin ja sen materiaaleihin voi tutustua Peltomäen verkkosivuilla.

Ohjelman viimeinen suomenkielinen puhuja oli valokuvaaja ja filosofian tohtori Leena Saraste. Hänen aiheensa koski valokuvan totuusarvoa ja sen mielikuvia muokkaavaa voimaa. Ajatus valokuvasta todisteena ja ilmaisuvälineenä on ristiriitainen ja siksi kiinnostava. Monet ajatukset ja lainaukset olivat provosoivia, kuten väittämä ”ihmiset haluavat tulla petetyiksi”. Näiden tukena oli mielenkiintoisia esimerkkejä ikonisista ja myös vähemmän tunnetuista valokuvista, joiden aihe ja ilmaisutapa olivat tarkkaan harkittuja. Kuvista ei näe, mitä on todella tapahtunut, sillä totuus ei löydy niistä itsestään.

Tauon jälkeen alkoi englanninkielinen osuus, jonka avasi Svenska Dagbladetin graafinen journalisti Thomas Molén. Hänen kuuluisin työnsä lienee Malofiej-kilpailussa pääpalkinnon saanut grafiikka euroviisujen äänestyskäyttäytymisestä. Molén on infografiikkanörtti ja ylpeä siitä. Esityksessä näkyi helposti nörttimäisten piirteiden etu hyvän infografiikan tekemisessä. Kun mielenkiinto syttyy helposti ja tekijällä on luontainen kyky syventyä sekä kiinnostusta teknologiaan, lopputulos on myös lukijalle syvempi ja mielenkiintoisempi.

Rees_8019
Kim Rees

Ensimmäinen Keynote-puhujamme oli yhdysvaltalaisen Periscopic-suunnittelutoimiston perustaja Kim Rees. Toimisto on tunnettu visuaalisista datatarinoistaan, joita yritykset, järjestöt ja julkinen sektori tilaavat esittämään toimintaansa ja tavoitteitaan.
Periscopicin tunnuslause on do good with data. Töiden aiheet ovat yhteiskuntaan, terveyteen ja ympäristöön liittyviä ja ne herättävät voimakkaita tunteita. Etenkin asekuolemien takia varastetuista vuosista kertova esitys oli vähäeleisyydestään huolimatta (tai ehkä juuri sen takia) koskettava. Kerronnallisesta ja tunteita herättävästä puolestaan huolimatta hyvän visualisoinnin on pohjattava todellisuuteen, ja mieleenpainuvien esitysten vahvuus on niiden rehellisyydessä. Läpinäkyvä data tekee esittäjän haavoittuvaksi, mutta rakentaa luottamusta.

Lounastauko oli tänä vuonna erityisen pitkä, sillä sali piti antaa hetkeksi valmistujaistilaisuuden käyttöön. Toisaalta tämä oli hyväkin asia, sillä tiiviit esitykset herättivät ajatuksia ja niitä oli mukava sulatella muiden kävijöiden kanssa.

Cairo_8173

Ohjelma jatkui toisella keynote-puheenvuoroistamme, jonka piti espanjalainen Alberto Cairo. Hän on pitkän linjan graafinen journalisti ja valistaja, jonka kirja The Functional Art on luultavasti tämän hetken paras teos informaatiomuotoilun tekemisestä. Cairon esitys oli perusteellinen läpikäynti siitä, mitä todella laadukkaan visualisointityön tekeminen vaatii. Eräs hänen keskeisistä viesteistään on, että kuvallisen esityksen tekijä ei ole tietoa koristeleva käsityöläinen vaan sisältöön paneutuva viestinnän ammattilainen, jolla on journalistinen vastuu. Lukijan ymmärrys voi olla seurausta ainoastaan tekijän ymmärryksestä.
Graafisen journalistin työ on suuressa määrin myös ryhmätyötä muiden viestinnän tekijöiden sekä asiantuntijoiden kanssa. Tapausesimerkeissä tuli esille, kuinka asiantuntijan kuuleminen lisää uusia ulottuvuuksia ja syvyyttä esitykseen. Toivoisin, että meillä Suomessa annettaisiin useammin puitteet tehdä tällä tasolla datalöhtöistä kuvallista journalismia.

Päivän viimeinen puhuja oli alankomaalainen informaatiomuotoilija Frédérik Ruys. Cairon tavoin hän painotti ymmärryksestä syntyvän oivalluksen merkitystä työssään (lainaamallaan termillä infogasm). Ruys esitteli vaikuttavan ja työlään hankkeen Nederland van Boven (Alankomaat ilmasta), joka on televisioon tuotettu dokumenttisarja. Siinä yhdistetään taitavasti kuvattua ilmakuvaa huolellisesti tutkittuun informaatiomuotoiluun tavalla, joka antaa arkielämän ilmiöistä uuden kuvan. Visualisoinneissa esitettiin hälytysajoneuvojen liikettä päivän aikana ja valtamerialusten liikennettä Euroopan vilkkaimpaan satamaan. Kiehtovin esimerkki oli kuitenkin haikaran päivän aikana tekemä lentoreitti, jossa näkyy kuinka lintu käyttää ihmisen toimintaa ja rakennettua ympäristöä hyväkseen.
Hiottu lopputulos vaati runsaasti taustatyötä ja useita ideoita oli hylättävä, koska visualisointi ei sopinut välineen kerronnallisiin vaatimuksiin. Visualisointien tekijänä oli mielenkiintoista seurata, kuinka usean osa-alueen pallottelu nopean työprosessin aikana onnistui näinkin sujuvasti.

ulkoa_7742

Haluamme kiittää kaikkia seminaarivieraitamme kiinnostuksestanne ja hyvistä kysymyksistä. Lisäksi kiitos kuuluu myös muille järjestelyssä auttaneille sekä sponsoreille. Oli jälleen haastavaa ja palkitsevaa suunnitella ohjelma, joka olisi yhtä monipuolinen kuin yleisömme.

Valokuvat: Pekka Niittyvirta

A misleading chart about Chávez’s legacy

FAIR has an entertaining piece critizising AP’s treatment of the late Venezuelan president Hugo Chávez. While I have some serious misgivings about the tendency of some left-leaning writers to skate over the awful human rights record of the Chavéz regime just because he was seen as a counterweight to the United States’ economic and foreign policy, it is certainly true that spending oil revenues on social programs instead of skyskrapers or museums is a sensible choice for a country like Venezuela. However, I take issue with the use of graphics in the FAIR article.

Accompanying the story is a graphic comparing the number of people living in poverty (defined here as a daily income of less than $ 2 at purchasing power parity) in Venezuela and Brazil:

Why is the vertical scale truncated at 10 %? And more importantly, why does the x-axis start at 2003? President Chávez took office in 1999 so wouldn’t that be a more relevant starting point? (I know the short answer to these questions that the graphic is a screenshot from World Bank’s website, but I still think it’s sloppy journalism to cut corners like this when it would have taken 5 minutes to download the relevant data and do the graphic in Excel.)

I downloaded the same World Bank data and did the graphic below, starting from 1998, a year before Chávez took office. I also added the data for Colombia and Mexico. I also added the data about U.S. oil price in real (inflation-adjusted) dollars per barrel as an inverted bar chart on the background to give context.

The World Bank data is somehat patchy, but by connecting the data points we have an interesting picture appears. In 1998 Brazil, Mexico and Venezuela had the same share of population living in poverty at roughly 20 %. In Colombia the share was some 7 percentage points higher. In the newest available data Brazil and Venezuela are roughly on par and Colombia is still trailing the two by the same amount as in 1998, whereas Mexico clearly has broken off the pack. Venezuela’s progress seems to be tracking the oil price curve whereas Mexico and Brazil show steadier, if less dramatic progress towards lower poverty rates.

The moral of the story is that it’s often possible to frame the data so that it supports your claim, whether true or not. Stepping back and showing more gives the audience the chance to judge for themselves. In this case it would seem that Venezuela did indeed make significant progress in reducing poverty during Chávez’s reign, but so did other oil exporting Latin American countries. Venezuela no more looks exceptional when showing a more complete set of data.

Koska suomalaiset saavat alkunsa?

Matt Stiles julkaisi The Daily Viz -blogiissan joitain päiviä sitten visualisoinnin joka kuvaa eri syntymäpäivien yleisyyttä Yhdysvalloissa. Ongelmallista Stilesin toteutuksessa oli, että se perustui dataan joka ei sisältänyt varsinaisia syntyvyyslukuja, vaan ainoastaan eri päivämäärien yleisyysjärjestyksen. Tästä syystä Stiles teki vielä uuden version joka perustuu absoluuttisiin lukuihin. Uudesta kuviosta käy ilmi, että kuukausittainen vaihtelu syntyvyydessä on lopulta varsin pieni.

Juttu herätti kysymyksen siitä, miltä syntyvyyden kuukausittainen vaihtelu mahtaisi näyttää Suomessa. Parahiksi Tilastokeskuksella on syntyvyydestä tarjolla varsin tarkkaa dataa. Syntymäkuukautta kiinnostavampaa on ehkäpä se, milloin lapset saavat alkuunsa. Yhdeksän kuukauden siirto lukuihin onnistuu toki päässälaskunakin, mutta hieman hankalasti. Siksi päätin sopivasti näin alkukesän tienoilla tehdä kuvion, joka esittää syntyvyyden kuukausittain ja jossa tämä muutos on tehty valmiiksi. Kuviosta voidaan lukea joko syntymäkuukausi (himmeällä suluissa), tai sen alla voimakkaammalla tekstityypillä ladottu oletettu hedelmöityskuukausi.

 

Koska alkuperäinen data kertoo vain syntyvyydestä, kuvio on lähinnä suuntaa antava, koska se ei huomioi keskimääräistä lyhyempiä tai pidempiä raskauksia. Kuvioon merkityt eri vuodet viittaavat samasta syystä syntymävuoteen, eivät siihen vuoteen jolloin lapsi on saanut alkunsa. Aiheen syklisyydestä johtuen kuviotyypiksi soveltui poikkeuksellisesti tutkakuvio. Kuvion katkaistu asteikko ylikorostaa vaihtelua tarkoituksellisesti.

Kuviosta voidaan havaita, että ajatus juhannuslapsista ei ole täysin tuulesta temmattu: kesäkuussa alkunsa saaneita lapsia on vertailun joka vuonna selvästi enemmän kuin toukokuussa. Muutoin suvunjatkaminen vaikuttaisi painottuvan pikemminkin syksyn ja talven puolelle. Esimerkiksi vuoden 2011 elokuussa, jolloin oli eniten syntyneitä, maailmaan tuli peräti 853 uutta suomalaista enemmän kuin saman vuoden joulukuussa. Vuoden 2011 lapsista oli siis laitettu alulle peräti 18% enemmän marras- kuin maaliskuussa.

Entäpä miltä kuvio näyttäisi, jos vaihtelua ei korosteta asteikkoa katkaisemalla? Tein Stilesin esimerkkiä seuraen tällaisen kuvion, johon on laskettu kuukausien päiväkohtaiset keskiarvot:

Kuukausittainen vaihtelu  näyttäisi tämän perusteella olevan Suomessa aavistuksen suurempi kuin Yhdysvalloissa. Huippukuukausi on sama (syyskuussa syntyneet eli joulukuussa alkunsa saaneet), mutta joulukuun alhainen syntyvyysluku poikkeaa amerikkalaisesta datasta. Mitäköhän Suomessa ja USA:ssa siis tapahtuu maaliskuussa?

______________________________

Päivitys 23.5.2012 

Kommenteissa esitettyjen hyvien huomioiden perusteella päätin tehdä pienen päivityksen. Ensimmäisessä tutkakuviossa oli tosiaan suoraan käytetty absoluuttisia syntyvyyslukuja, joten kuukausien eri pituuksia ei ollut kompensoitu. Pylväskuviossa tämä oli huomioitu, se näyttää syntyneet per kuukausi jaettuna kuukauden pituudella. Alla oleva uusi kuvio näyttää nyt samalla tavalla syntyneet per kuukausi, unohtamatta vuoden 2008 karkauspäivää. Voidaan huomata että helmikuun syntyneiden kohdalla aiemmassa grafiikassa ollut notkahdus on hävinnyt, mutta muutoin yleiskuva on varsin samannäköinen.


Epätarkkuutta lisää tietysti se seikka, että hedelmöityskuukausi voi olla erimittainen kuin syntymäkuukausi. Vaihtelu kuukausien pituudessa on kuitenkin pientä verrattuna raskauksien tavalliseen pituusvaihteluun: raskauden keston arviointi heittää parhaimmassakin tapauksessa 8-9 päivää ja vähemmän kuin viisi prosenttia lapsista syntyy tarkalleen 40 viikon raskauden jälkeen. 80% syntymistä tapahtuu kahden viikon sisällä 40 viikosta. Näin kuvio on hyvin karkeasti suuntaa antava siittämiskuukauden kohdalla. Tarkan tieton saamiseksi siitä milloin suomalaiset lapset on pantu alulle vaatisi siis enemmin kyselytutkimusta. Liekö sellaista tehty?

Aiempien vuosien ja pitkän ajan muutosten visualisointi on ehdottomasti mielessä ja siihen tulen varmasti vielä palaamaan vastaisuudessa, data kun ulottuu aina vuoteen 1900 asti.

Argentiinan inflaatiotilastot

The Economist kirjoittaa uusimmassa numerossaan Argentiinan hallituksen harjoittamasta inflaatiotilastojen vääristelystä sekä pääkirjoituksessaan että syvemmälle aiheeseen paneutuvassa feature-arikkelissa. Tämä on hyvä muistutus siitä, että tilastot eivät aina kerro koko totuutta edes silloin kun ne tulevat melko demokraattisen maan viranomaisilta. Inflaatio ei ole mikään täydellisen neutraalisti mitattavissa oleva asia, vaan sen määrittämiseen liittyy aina valintoja, joilla on suuri vaikutus lopputulokseen. Sama pätee muihinkin taloudellisiin ja yhteiskunnallisiin tilastoihin. Luonnontieteissä asiat voi yleensä määritellä melko objektiivisesti, mutta kun tarkastellaan ihmisten toimintaa, ei voida välttyä valinnoilta ja tulkinnoilta.

Terve kriittisyys kuuluu siis kaikkeen tilastojen kanssa työskentelemiseen, myös tilastotiedon visualisointiin. Ja kriittisyys vaatii asiantuntemusta. Jos ei itse ole aiheen asiantuntija, on otettava selvää siitä, mitä varsinaiset asiantuntijat ovat mieltä tämän tai tuon tutkimuksen tai tilaston luotettavuudesta. (Terve kriittisyys ei toki tarkoita sitä, että pelkkään omaan ja/tai kaverien näppituntumaan perustuen kyseenalaistetaan tutkittu tieto vailla kunnon perusteita ja luetaan tilastoja kuin lukihäiriöinen piru Raamattua.) Valitettava tosiasia on, että visualisointitaidot ja tieteellinen asiantunemus eivät yleensä kulje käsi kädessä, eikä tietenkään ole mahdollista ottaa erikseen selvää joka ikisestä asiasta, joka töitä tehdessä tulee vastaan. Siksi meidän visualistien olisi hyvä aina keskustella asiantuntijoiden kanssa, kun työskentelemme sellaisten tietojen parissa, joita emme aivan suvereenisti hallitse. Onneksi asiantuntijat yleensä tykkäävät puhua omasta aiheestaan aina kun tilaisuus vain tulee. ;)

Tietosivu kaupunginosista

Helsingin kaupungin tietokeskuksella on varsin paljon dataa Helsingistä kaupunginosien tasolla. Yksittäisistä taulukoista tai edes Tilastollisesta vuosikirjasta ei kuitenkaan ole aina helppoa hahmottaa kokonaiskuvaa yksittäisistä kaupunginosista. Siksi päätimme viime viikonlopun Open Data Kitchenissä yhdessä Janne Aukian ja We Love Open Datan kanssa tehdä pienen työkalun, jonka avulla voi luoda tietosivuja kaupunginosadatasta.

Työkalu ei ole valmis, mutta se on toimiva prototyyppi jolla pystyy visualisoimaan erilaista dataa kaupunginosista, kunhan se on ensin käsitelty sopivasti muotoilluiksi csv-tiedostoiksi. Mielenkiintoinen jatkokehitysmahdollisuus työkalulle olisi esimerkiksi verkkopohjainen versio, jonka avulla kävijä voisi tulostaa tai jakaa valitsemansa dataa omasta kaupunginosastaan.

Projekti on rakennettu Nodeboxilla ja on ladattavissa kokonaisuudessaan Githubista: https://github.com/jaukia/odk-localdata.
Pdf-tulosteet kaikista kaupunginosista löytyvät täältä.

Kartta perustuu kaupungin avoimeen seutukarttaan, joka on Qgisin ja kml-to-svg-konvertterin avulla muutettu svg-muotoon.

English summary: We made a tool for creating local data sheets from Helsinki city district level data in collaboration with  Janne Aukia ja We Love Open Data. It is made in Nodebox  and is available on Github: https://github.com/jaukia/odk-localdata