Näiden vaalien tuloksen ennustaminen on tavallistakin vaikeampaa

Sunnuntaina järjestettävien eduskuntavaalien tulosta on totuttuun tapaan spekuloitu ennakkoon ahkerasti. Ennustaminen on aina vaikeaa, erityisesti tulevaisuuden, mutta tällä kertaa vaalituloksen ennustaminen on tavallistakin hankalampaa.

Puolueiden kannatusta mittaavien mielipidekyselyiden tulokset antavat toki jonkinlaista osviittaa mahdollisesta vaalituloksesta. Yhdistämällä viimeisimpien Ylen, Helsingin Sanomien ja Alma Median gallupien tulokset saadaan seuraavanlainen tulos:


KannatusVirhemarginaali
SDP19,4 %±1,3 %
kokoomus16,8 %±1,2 %
PS14,9 %±1,2 %
keskusta14,5 %±1,2 %
vihreät12,5 %±1,1 %
vasemmistoliitto9,1 %±0,9 %
RKP4,4 %±0,7 %
KD4,2 %±0,7 %
siniset1,3 %±0,4 %
muut2,9 %±0,6 %

(Mielipidemittausten tulosten yhdistämistä ja puoluekohtaisen virhemarginaalin laskemista käsitellään lähemmin tässä artikkelissa.)

Vaikka tulokseen liittyy epävarmuustekijöitä, uskon, että lopullinen valtakunnallinen tulos on luultavasti melko lähellä tätä.

Eduskunnan paikkajakoa ei kuitenkaan ratkaise puolueiden valtakunnallinen äänisaalis, vaan se, kuinka paljon ääniä niille kussakin vaalipiirissä kertyy. Tämän ennustaminen on aina vaikeaa, mutta erityisen hankalaa näissä vaaleissa, sillä mukana on suuri määrä uusia tai sitten viime vaalien kannatustaan kasvattaneita pienpuolueita, joiden vaikutusta on hyvin vaikea arvioida. Erityisen hankalaksi asian tekee se, että moni nykyinen kansanedustaja, mukana muutamia viime vaalien ääniharaviakin, on näissä vaaleissa valtakunnallisesti alle parin prosentin kannatuksen kellottavan puolueen ehdokkaana.

Yle ja Vihreä Lanka ovat molemmat laatineet omat ennusteensa paikkajaosta, mutta kumpikaan niistä ei ole metodologisesti tyydyttävä. Yle ei avaa lainkaan esimerkiksi sitä, millä perusteella kannatus on jyvitetty vaalipiireittäin ja miten puoluekentän muutokset on ennusteessa huomioitu – vai onko mitenkään. Vihreä Lanka on kiitettävän avoin käyttämästään mallista, mutta kuvauksen perusteella mallissa on ilmeisiä katvealueita.

Päätin yrittää itse kokeilla mallinnusta, joka huomioisi puolueiden valtakunnallisten kannatuslukujen lisäksi Turun Sanomien, Satakunnan Kansan, Kymen Sanomien, Karjalaisen, Savon Sanomien, Kalevan ja Lapin Kansan teettämät vaalipiirikohtaiset mielipidemittaukset ja vaaliliitot, ja ottaisi jollain tapaa huomioon myös kansanedustajien puolueenvaihdokset vaalikauden aikana.

Tehtävä osoittautui hankalaksi. Suurin ongelma on datan puute. Vaalipiirikohtaisia mielipidemittauksia ei ole tehty kaikissa vaalipiireissä, ja useimmissa paikallisissa gallupeissa otoskoko on joko naurettavan pieni tai sitä ei ole edes ilmoitettu.

Valtakunnallisen kannatuksen jyvittämisessä vaalipiireihin hyödynsin tietoa kansanedustajien vuoden 2015 vaaleissa saamista henkilökohtaisista äänimääristä, niin että esimerkiksi Harry Harkimon Uudellamaalla saama äänimäärä vähennettiin Uudenmaan kokoomuksen potista ja lisättiin Liike Nytille. Samoin toimittiin sinisen eduskuntaryhmän kansanedustajien kohdalla, joiden saamat äänet vähennettiin perussuomalaisten potista. Paavo Väyrynen on sen sijaan hankalampi tapaus, sillä hän on vaihtanut paitsi puoluetta, myös vaalipiiriä. Tein lopulta Lapin Kansan mielipidemittauksen perusteella – se ei ennusta järin suurta kannatusta eduskunnan ulkopuolisille puolueille Lapin vaalipiirissä – sellaisen melko mielivaltaisen päätöksen, että jyvitin vain kolmasosan Väyrysen saamista äänistä Seitsemän Tähden Liikkeelle.

Hyvin äkkiä huomasin, että kun dataa on vähän, erilaisia painokertoimia ja oletuksia tarvitaan paljon, eikä niille löydy kovin hyviä perusteluita, vaan ne jäävät tyypillisesti aika mielivaltaisiksi. Miten esimerkiksi pitäisi painottaa vaalipiirikohtaista mielipidemittauksen tulosta suhteessa valtakunnalliseen? (Pelkkiin vaalipiirikohtaisiin kyselyihin en halunnut luottaa silloinkaan kun sellainen oli saatavilla, sillä niiden otoskoot olivat yleensä varsin pieniä, ja monet on julkaistu ennen perussuomalaisten viimeaikaista gallupnousua.) Päädyin käyttämään paikallisen gallupin vastaajaluvun parina lukua, joka on muodostettu jakamalla valtakunnallisten gallupien yhteenlaskettu vastaajamäärä (3 554) kahdella sadalla ja kertomalla tämä sitten vaalipiirin kansanedustajapaikkojen määrällä. Esimerkiksi Oulun vaalipiirissä painotin siis Kalevan gallupia, jossa kantansa ilmaisi 368 vastaajaa suhdeluvulla 368 / 320, jossa 320 on saatu laskukaavalla 3 554 ÷ 200 × 18.

Näillä oletuksilla paikkaennuste on seuraava:

SDP45(+10)
kokoomus35(–3)
PS32(+15)
keskusta32(–16)
vihreät24(+9)
vasemmistoliitto16(+4)
RKP (sis. Ahvenanmaan edustajan)9(–1)
KD6(+1)
Liike Nyt1(–1)
siniset0(–17)
muut0(–1)

(Suluissa muutos suhteessa tämänhetkisen eduskunnan kokoonpanoon.)

Kuinka varma tämä tulos on? Hyvin epävarma.

Kokeilin simuloida vaalitulosta siten, että kunkin puolueen äänimäärä vaihtelisi vaihtelisi hieman lasketun keskiennusteen ympärillä. Tässä hankalaksi kysymykseksi muodostui se, mikä olisi oikea tapa määritellä satunnaismuuttujan hajonta, kun data ei ole yhteismitallista eikä kaikilta osin kovin laadukasta. Menemättä yksityiskohtiin, kokeilin runsaasti kaikenlaisia vaihtoehtoja saavuttamatta kovin tyydyttävää tulosta, tai kykenemättä esittämään hyviä perusteluita sille, miksi juuri tämä tai tuo painotus tai kerroin olisi sen perustellumpi kuin joku toinen.

Ohessa esimerkki yhden simulaation tuloksista. Tässä ”vaali” siis ajettiin 20 000 kertaa läpi hieman satunnaisesti varioiden kunkin puolueen kussakin vaalipiirissä saamaa äänimäärää:

Kuten kuvasta näkyy, hajonta on useimpien puolueiden osalta kuin haulikolla ammuttu. Kiinnostavasti juuri minkään puolueen kohdalla aiemmin laskettu todennäköisin arvo ei ole hajonnan keskellä, eivätkä useimmat käppyrät muutenkaan vaikuta normaalisti jakautuneilta. Kyse voi toki olla virheestä hätäisesti kyhätyssä koodissani – tämä ei yllättäisi minua lainkaan –, mutta datan lähempi tarkastelu viittaa toiseenkin mahdolliseen selitykseen: todella monessa vaalipiirissä viimeisestä 1–2 paikasta tullaan käytössä olevien lukujen valossa käymään todella kova kisa.

Oman analyysini pohjalta uskallan veikata sunnuntain vaalituloksesta vain, että se tulee sisältämään yllätyksiä. Millaisia, se jää nähtäväksi. Odotus ei onneksi ole enää pitkä.

Artikkelia muokattu 13.4.2019 klo 12:54: Korjattu ennustettujen kansanedustajapaikkojen määrää koskevassa taulukossa virheelliset muutos nykyiseen eduskunnan kokoonpanon -tiedot.

Vihreiden hyvä gallup-kannatus ei välttämättä käänny eduskuntapaikoiksi

Eilisen iso uutinen Suomen politiikassa oli Ylen julkaisema kannatusmittaus, joka nosti vihreät jo maan toiseksi suosituimmaksi puolueeksi huimalla 17,6 prosentin kannatuksella. On monia hyviä syitä olettaa, että puolueen suosio tulee seuraavassa mittauksessa olemaan tätä pienempi, eikä mielipidemittaus kerro välttämättä paljoakaan lopullisesta vaalituloksesta – ei vähiten siksi, että seuraaviin eduskuntavaaleihin on aikaa vielä kaksi vuotta (mikäli sitä ennen ei jouduta ennenaikaisiin vaaleihin) . Tulos on silti niin poikkeuksellinen, että on herkullista leikitellä hetki mitä jos -tyyppisellä pohdiskelulla ja kysyä, miten näiden lukujen mukainen vaalitulos kääntyisi eduskuntapaikoiksi.

Missään maailman maassa puolueiden parlamenttiin saamien paikkojen määrä ei perustu täysin suoraan saatujen äänten määrään – siis niin, että vaikkapa 10 prosenttia äänistä kerännyt puolue saisi aina 10 prosenttia parlamenttipaikoista. Tähän on erilaisia syitä. Joissain maissa suurimpien puolueiden asemaa on tietoisesti pönkitetty äänikynnyksen tai vaalien voittajalle jaettavien ”bonuspaikkojen” muodossa. Myös halu turvata maan eri osien tasapuolinen edustus parlamentissa vaalipiirien avulla aiheuttaa tällaista epäsuhtaa ääni- ja paikkamäärien välille. Mm. angloamerikkalaisissa maissa yleisesti käytetty enemmistövaalitapa voi johtaa todella räikeisiinkin poikkeamiin suhteellisuudessa. Kansainvälisessä vertailussa Suomen vaalijärjestelmä on toteutuneiden vaalitulosten valossa kohtuullisen edustava, mutta esimerkiksi Tanskassa, Israelissa ja Uudessa-Seelannissa ääni- ja paikkamäärien suhteellisuus toteutuu vielä paremmin.

Laskin, miten Ylen mielipidemittauksen mukainen vaalitulos kääntyisi eduskuntapaikoiksi, jos kunkin puolueen saamat äänet jakautuisivat eri vaalipiireihin samassa suhteessa kuin vuoden 2015 eduskuntavaaleissa. Tämä tarkoittaisi esimerkiksi, että vihreiden koko maassa saamista äänistä noin 27 % annettaisiin Helsingissä, kun taas RKP:n äänistä 35 % tulisi Vaasan vaalipiiristä. Lisäksi oletan yksinkertaisuuden vuoksi, että yksikään tällä hetkellä eduskunnan ulkopuolella oleva puolue ei saisi haalittua riittävästi ääniä yhdenkään ehdokkaan läpimenoon.

Lopputulos ei näytä optimaaliselta vihreiden kannalta, vaikka toki näillä luvuilla puolue olisi vaalien suurin voittaja. 17,6 % äänistä toisi vihreille vain 16,5 % paikoista, ja maan toiseksi suosituin puolue jäisi kansanedustajapaikoissa vasta neljännelle sijalle johtuen kannatuksen epäedullisesta jakautumisesta.

Vaalipiirijako näyttää näillä luvuilla suosivan erityisesti keskustaa ja SDP:tä, joista kumpikin haalisi selvästi ääniosuuttaan suuremman määrän kansanedustajapaikkoja. Myös kokoomuksen paikkamäärä on suhteellisesti suurempi kuin ääniosuus. Kaikki pienemmät puolueet saisivat taas hieman ääniosuuttaan pienemmän osuuden paikoista. (RKP:n hieman tutkimuksessa mitattua ääniosuutta suurempi edustajanpaikkojen määrä johtuu siitä, että Ahvenanmaa eli ole mukana mielipidemittauksessa. Maakunnan edustaja istuu kuitenkin perinteisesti aina RKP:n eduskuntaryhmässä, eli puolue saa tavallaan yhden lisäpaikan.)

Suurten ja pienten puolueiden suhteellinen menestys selittyy pitkälti suomalaisissa vaaleissa käytetyllä laskentatavalla, joka normaalisti suosii suuria puolueita – vihreiden suurella kannatuksella kellottama matala edustajanpaikkojen määrä on tässä mielessä hyvin poikkeuksellinen.

Alla vielä vaalipiirikohtaiset tulokset. Vaikka on epätodennäköistä, että lopullinen vaalitulos olisi kovin täsmällisesti lähellä Ylen eilisen mielipidemittauksen tulosta, on taulukosta silti helppo huomata, että viherjytkyn materialisoituminen vaatisi vihreiden tuloksen parantumista varsinkin suurten kaupunkien ulkopuolella.

 

Lisäys 18.8. klo 14:51: Sosiaalisen median puolella esitettiin hyvä kysymys: miltä tulos näyttäisi, jos eri puolueiden saamien äänten alueellinen jakautuminen muistuttaisi pikemminkin kuntavaalien 2017 kuin eduskuntavaalien 2015 tulosta. Alla oleva taulukko näyttää paikkaennusteen kunnallisvaalien tuloksen pohjalta. 

Tulos näyttää vihreiden kannalta paremmalta kuin ylempää löytyvä, eduskuntavaalien tulosta pohjana käyttävä ennuste. Keskusta ja SDP pärjäävät edelleen suhteellisesti paremmin, mutta asetelma on vihreille hieman vähemmän epäedullinen, ja näillä luvuilla vihreät nousisi eduskunnan kolmanneksi suurimmaksi puolueeksi. Voidaan siis todeta, että vihreät on jo kevään kuntavaaleissa onnistunut levittämään kannatustaan maantieteellisesti laajemmalle alueelle viime eduskuntavaaleihin nähden. Jos suunta jatkuu samana, tämä lupaa hyvää vihreiden paikkamäärälle seuraavissa vaaleissa.

Muidenkin puolueiden paikkamäärissä on pieniä muutoksia. Erityisen mielenkiintoinen yksityiskohta on, että kristillisdemokraattien paikkamäärä putoaisi puoleen eduskuntavaaleihin pohjautuvaan skenaarioon verrattuna. 

Oikean Median puoluekannatusanalyysi on huonosti tehtyä ja laiskaa datajournalismia

Arvokonservatiiviseksi vaihtoehtomediaksi itsensä määrittelevä Oikea Media julkaisi lauantaina Marko Hamilon kirjoittaman puolueiden kannatusta ja vieraskielisten osuutta Helsingin eri alueilla vertailevan datajournalismijutun otsikolla ”Maahanmuuton kannattajat asuvat kaukana monikulttuurisesta arjesta”.

Analyysin keskeinen sisältö tiivistetään Hamilon jutussa näin:

– – Sdp ja Perussuomalaiset saavat paljon ääniä monikulttuurisilta alueilta, sen sijaan Kokoomuksen ja Vihreiden kannatus on heikompaa siellä missä monikulttuurisuus on voimakasta. Vasemmistoliiton kannatus ei riipu äänestysalueen monikulttuurisuuden asteesta.

On ilahduttavaa, että konservatiivitkin yrittävät vaihteeksi käydä yhteiskunnallista keskustelua asia-argumentein. Valitettavasti artikkeli perustuu virheellisesti käsiteltyyn dataan eikä edes tämä virheellinen aineisto lähemmin tarkasteltuna täysin tue Hamilon sanallisesti esittämää tulkintaa.

Käytetty aineisto soveltuu tarkoitukseen huonosti ja käytetty menetelmä on kuvattu puutteellisesti

Puolueiden kannatuksen ja ”monikulttuurisuuden”, joka Hamilon artikkelissa määritellään vieraiden kielten puhujien osuudeksi, vertailu on lähtökohtaisesti hankalaa, sillä näistä teemoista saatavilla olevat tilastot käyttävät erilaista aluejakoa. Äänestysalueita ei käytetä väestötilastojen aluejakona, joten vieraiden kielten puhujien osuus on saatavilla vain niiden kanssa yhteensopimattomalla aluejaolla, esimerkiksi kaupunginosittain (Helsingin seudun aluesarjat -sivustolta) tai postinumeroalueittain (Tilastokeskuksen PAAVO-tietokannasta). Hamilo ilmoittaa käyttäneensä lähteenä aluesarjojen aiheistoa.

Alla oleva Helsingin kartta kuvaa sitä, miksi tämä on ongelma. Äänestysalueiden rajat eivät vastaa yksi yhteen kaupunginosien (tai postinumeroalueiden) rajoja. Kartassa mustalla näkyvät ne rajat, jotka ovat sekä kaupunginosien että äänestysalueiden rajoja, vihreällä vuoden 2012 kuntavaalien äänestysalueiden rajat ja oranssilla kaupunginosien rajat. Lisäksi vihreänharmaalla on merkitty ne äänestysalueiden rajat, jotka muuttuivat vuonna 2013.

(Kuva aukeaa klikkaamalla suuremmaksi.)

Sellaisissa tapauksissa, joissa kaikki kaupunginosaan kuuluvat äänestysalueet mahtuvat kokonaan sen rajojen sisäpuolelle ongelmaa ei synny, koska tällöin tulokset voidaan laskea yhteen ja muodostaa näin kaupunginosakohtaiset luvut. Ongelmia tuottavat sellaiset äänestysalueet, jotka ulottuvat kahden tai useamman kaupunginosan puolelle.

Yllä olevalla kartalla oranssina näkyvät kaupunginosien rajat ovat sellaisia kohtia, joissa äänestysalue ulottuu useamman kaupunginosan alueelle. Esimerkiksi äänestysalue 003A Kaartinkaupunki pitää sisällään Kaartinkaupungin kaupunginosan lisäksi myös Kaivopuiston sekä ison siivun Ullanlinnasta.

Hamilo ei selitä miten hän on ratkaissut aluejakojen yhteensovittamiseen liittyvät ongelmat. Asian selvittämistä hankaloittaa, että hän käyttää kaupunginosista pääosin muita kuin niiden virallisia nimiä. Joissain kohdin tämä on sisällöllisesti perusteltua: harva esimerkiksi tietää, että Itäkeskus ja Myllypuro kuuluvat molemmat virallisesti Vartiokylä-nimiseen kaupunginosaan (numero 45), joten nimitys Itäkeskus–Myllypuro on virallista nimeä havainnollisempi. Monet Hamilon valitsemat nimitykset ovat kuitenkin harhaanjohtavia: hän kutsuu esimerkiksi Länsisataman kaupunginosaa (20) Ruoholahdeksi, vaikka kaupunginosaan kuuluvat Ruoholahden lisäksi myös Jätkäsaari, Lapinlahti ja Hernesaari.

Hamilo vaikuttaa myös jättäneen viisi kaupunginosaa kokonaan pois analyysistään perustelematta ratkaisua mitenkään. Puuttuvat kaupunginosat ovat Kaivopuisto (09), Laakso (18), Vanhakaupunki (27), Viikki (36) ja Vartiosaari (48). Varsinkin n. 15 000 asukkaan Viikin jättäminen pois on erikoinen veto, joka kaipaisi jonkin perustelun tuekseen. Uskoisin tämän liittyvän jollain tavalla äänestysalueiden ja kaupunginosien yhteensovitusongelmaan, mutta kun metodologiaa ei ole tekstissä avattu, asia jää mysteeriksi.

Olen koonnut alla olevaan taulukkoon käsitykseni siitä, mitä virallisen aluejaon kaupunginosaa mikin Hamilon käyttämä nimitys tarkoittaa:

Hamilon käyttämä kaupunginosan nimi kaupunginosan virallinen nimi ja numero asukasluku 1.1.2016
Alppila 12 Alppiharju 11 937
Etu-Töölö 13 Etu-Töölö 14 559
Haaga 29 Haaga 26 771
Hermanni 21 Hermanni 6 325
Herttoniemi-Roihuvuori 43 Herttoniemi 26 216
Itäkeskus-Myllypuro 45 Vartiokylä 33 956
Jakomäki 41 Suurmetsä 16 209
Kaartinkaupunki 03 Kaartinkaupunki 1 050
Kallio 11 Kallio 19 434
Kamppi-Hietalahti 04 Kamppi 11 709
Kannelmäki-Malminkartano 33 Kaarela 27 357
Käpylä 25 Käpylä 8 114
Katajanokka 08 Katajanokka 4 470
Kluuvi 02 Kluuvi 636
Konala 32 Konala 6 197
Kontula-Mellunmäki 47 Mellunkylä 37 600
Koskela 26 Koskela 3 336
Kruununhaka 01 Kruununhaka 7 376
Kulosaari 42 Kulosaari 3 806
Kumpula 24 Kumpula 3 838
Laajasalo 49 Laajasalo 16 630
Lauttasaari 31 Lauttasaari 22 617
Malmi 38 Malmi 24 664
Maunula 28 Oulunkylä 23 333
Meilahti 15 Meilahti 5 091
Munkkiniemi 30 Munkkiniemi 17 629
Pakila 34 Pakila 10 399
Paloheinä 35 Tuomarinkylä 8 982
Pasila 17 Pasila 9 219
Pitäjänmäki 46 Pitäjänmäki 11 726
Pukinmäki 37 Pukinmäki 8 383
Punavuori-Eira 05 Punavuori + 06 Eira 10 163
Ruoholahti 20 Länsisatama 10 350
Ruskeasuo 16 Ruskeasuo 10 373
Santahamina 51 Santahamina 423
Sörnäinen 10 Sörnäinen 9 634
Suomenlinna 52 Suomenlinna 790
Taka-Töölö 14 Taka-Töölö 15 244
Tammisalo 44 Tammisalo 2 247
Tapanila 39 Tapaninkylä 14 159
Tapulikaupunki 40 Suutarila 19 901
Toukola 23 Toukola 8 777
Ullanlinna 07 Ullanlinna 10 629
Vallila 22 Vallila 9 326
Vuosaari 54 Vuosaari 37 834
Östersundom 55 Östersundom +
58 Karhusaari +
59 Ultuna
1 961
puuttuvat kokonaan 09 Kaivopuisto
18 Laakso
27 Vanhakaupunki
36 Viikki
48 Vartiosaari
yht. 17 901

Taulukosta ilmenee eräs muukin käytetyn aluejaon ongelma. Äänestysalueet ovat asukasluvultaan likimain samankokoisia, useimmiten noin 2 000–4 000 henkeä, joten niiden suora vertailu on vielä kohtalaisen mielekästä ilman sen kummempia painokertoimia. Hamilon vertailemien kaupunginosien asukasluvut kuitenkin vaihtelevat 423 asukkaan Santahaminasta 37 800 asukkaan Vuosaareen. On kyseenalaista, millaisia johtopäätöksiä näin erilaisia alueita suoraan vertailemalla voi ylipäänsä tehdä.

Hamilo on päätynyt yhdistämään vuosien 2008, 2011, 2012 ja 2015 vaalien tulokset yhdeksi luvuksi. Niin puolueiden kannatus kuin vieraskielisten määräkin on vaihdellut eri alueilla tällä ajanjaksolla paljon, eikä Hamilo selitä, miten hän on ottanut vaihtelun huomioon. Runsas vieraskielisten määrä vuonna 2015 tuskin on voinut vaikuttaa takautuvasti puolueiden kannatukseen vuonna 2008. (Pieniä lisähankaluuksia saattaa joissain kohdin tuottaa myös, että äänestysalueiden rajoja on muutettu vuosina 2010 ja 2013.)

Minulle jää myös epäselväksi, miten Hamilon ilmoittama vieraskielisten osuus eri kaupunginosissa on laskettu. Se ei aluesarjojen luvuilla nopeasti testailtuna vaikuttaisi olevan ainakaan vaalivuosien painotettu tai painottamaton keskiarvo, minkään yksittäisen vaalivuoden luku eikä myöskään tuorein Aluesarjat-sivustolta löytyvä luku eli tilanne vuoden 2016 alussa.

Jos analyysin olisi tehnyt jokin luotettava, journalistin ohjeisiin sitoutunut media, tai vielä parempaa, yliopistossa tai vaikkapa sektoritutkimuslaitoksessa työskentelevä ammattitutkija, saattaisin ehkä olla valmis uskomaan, että kaikille yllä mainitsemilleni erikoisille ratkaisuille löytyy hyvä perustelu ja ongelmakohdat on pystytty tavalla tai toisella taklaamaan. Hamilon ja Oikean Median uskottavuus ei kuitenkaan ole sillä tasolla, että ilman yksityiskohtaisia perusteluja voisi noin vain olettaa tekijän tietävän mitä tekee – varsinkin kun aineiston lähempi tarkastelu tuntuu pikemminkin lisäävän kysymyksiä kuin vastaavan niihin.

Edes Hamilon käyttämä data ei tue hänen johtopäätöksiään

Kelpuuttakaamme kuitenkin keskustelun vuoksi Hamilon käyttämä data kaikkine epäselvyyksineenkin. Tukeeko käytetty aineisto kirjoittajan sanallista tulkintaa? Hamilo toteaa kuvioiden lukuohjeessa mm. näin:

Jos puolueen kannatus korreloi positiivisesti monikulttuurisuuden kanssa, on trendi nouseva oikealle mentäessä.

Hamilo on siis kiinnostunut siitä, miten puolueen kannataus korreloi ”monikulttuurisuuden” (eli vieraskielisten osuuden kanssa). Tässä kohdin on hyvä muistuttaa siitä, mitä korrelaatio oikeastaan tarkoittaa. Tiivis määritelmä löytyy esimerkiksi Tieto näkyväksi -kirjasta (s. 195):

Korrelaatio eli yhteisvaihtelu on suure, joka kuvaa kahden muuttujan keskinäistä riippuvuussuhdetta. Tiedämme esimerkiksi, että ihmisen tulotasolla ja eliniänodotteella on yhteys toisiinsa: suurituloiset elävät keskimäärin pienituloisia vanhemmiksi. Havainto pätee tilastollisella tasolla, vaikka yksilötasolla tästä esiintyykin runsaasti poikkeuksia.

Voimakas korrelaatio viittaa siihen, että muuttujien välillä on jonkinlainen syy­-yhteys, mutta ei kerro sitä, kumpi muuttujista on syy ja kumpi seuraus tai löytyykö keskinäisen riippuvuuden takaa kenties jokin kolmas selittävä tekijä. Tämä ei käy ilmi pelkästään tilastollisesta analyysistä, vaan syy–seuraussuhteen selvittäminen vaatii syvällisempää tietoa aiheesta.

Korrelaation laskemiseen on useita matemaattisia menetelmiä, joista käytetyin on Pearsonin korrelaatiokerroin eli r. Se voi saada arvoja välillä –1 … 1. Korrelaatio on sitä voimakkaampi, mitä enemmän r:n arvo poikkeaa nollasta. Negatiiviset arvot kuvaavat käänteistä riippuvuussuhdetta, jossa toisen muut­tujan arvo kasvaa toisen pienentyessä.

– –

Tilanteet, joissa r olisi tasan 0, 1 tai –1 ovat varsin harvinaisia. Useimmin korrelaatiokertoimen arvo asettuu jonnekin niiden välimaastoon. Mikä silloin on voimakas tai heikko korrelaatio? Ohessa suuntaa antava jaottelu:

r = 0–0,2 ei korrelaatiota
r = 0,2–0,4 heikko korrelaatio
r = 0,4–0,6 kohtalainen korrelaatio
r = 0,6–0,8 voimakas korrelaatio
r = 0,8–1 erittäin voimakas korrelaatio

Korrelaatio on siis matemaattinen suure, jonka suuruus voidaan visualisoinnista arvioida silmämääräisesti vain karkeasti, mutta jonka laskemiseen on olemassa vakiintunut ja helppo menetelmä.

Jostain syystä Hamilo ei ole laskenut puolueiden kannatuslukujen ja ”monikulttuurisuuden” asteen välisiä korrelaatiokertoimia, vaan nojaa pelkästään laatimiinsa visuaalisiin esityksiin, joita hän tulkitsee lukijalle sanallisesti.

Alla olevaa kuviota tulkitaan mm. näin: ”Vihreiden vankin kannatus löytyy kantasuomalaisten asuttamilta alueilta ja kannatus laskee monikulttuurin lisääntyessä.”

Seuraavaa grafiikkaa kuvaillaan vuorostaan näin: ”Vasemmistoliiton kannatus näyttää olevan tasaista kautta linjan, eikä siis riipu alueen monikulttuurisuusasteesta.”

Minun täytyy sanoa, etten näe kuvioissa Hamilon kuvailemaa eroa. Minun silmiini kumpikaan niistä ei paljasta selkeää yhteyttä puolueen kannatuksen ja ”monikulttuurisuuden” välillä, vaan kaupunginosia kuvaavat pallot ovat kummassakin kuviossa melko lailla hajallaan ympäri koordinaatistoa.

Onneksi asiassa ei tarvitse luottaa pelkkään silmämääriseen arvioon, vaan voimme laskea puolueen kannatuksen ja vieraitten kielten puhujien osuuden korrelaation kullekin puolueelle:

puolue korrelaatio
SDP 0,72
kokoomus −0,55
perussuomalaiset 0,51
vihreät −0,18
vasemmistoliitto 0,15

SDP:n ja monikulttuurisuuden väillä näkyy Hamilon keräämän datan perusteella olevan voimakas (r = 0,72) positiivinen korrelaatio. Myös kokoomuksen ja perussuomalaisten kohdalla korrelaatio on kohtalainen, kuten Hamilo jutussaan kuvaileekin.

Mutta kas vain! Vihreiden ja vasemmistoliiton korrelaatiokertoimet ovat käytännössä samansuuruisia, vaikkakin toki vastakkais­suuntaisia. Toista näistä Hamilo kuvailee siis sanomalla, että ”kannatus laskee monikulttuurin lisääntyessä”, toista taas, ettei kannatus ”riipu alueen monikulttuurisuusasteesta”.

Alle 0,2:n korrelaatiota kuvaillaan yleensä sanoilla ”ei korrelaatiota”. Toisin sanoen, Hamilon väite siitä, että vihreiden kannatus olisi kääntäen verrannollinen ”monikulttuurisuuden” määrään ei kestä lähempää tarkastelua edes hänen omaa dataansa käyttäen. Hamilo on päättänyt analyysinsä tuloksen etukäteen ja näkee kuviossa mitä haluaa, vaikka yksinkertainen tilastollinen analyysi olisi paljastanut, ettei aineisto tue tehtyä johtopäätöstä. Tämä siis sen lisäksi, ettei käytetty aineisto sovi tällaisen analyysin tekemiseen ja sitä on käsitelty virheellisesti ja läpinäkymättömästi.

Näiden puutteiden lisäksi voisin listata vielä lisääkin. Esimerkiksi: Miksi tarkastelu on rajattu vain Helsinkiin? Eikö vähintään muut pk-seudun kunnat ja kenties muutkin suuret kaupunkiseudut olisi syytä ottaa mukaan isomman otoksen ja siten robustimman analyysin aikaansaamiseksi?

Entäpä miksi jutussa ei ole lainkaan käsitelty vaihtoehtoisia selityksiä havaituille puoluekannatuksen alueellisille eroille? Uskaltaisin veikata, että sekä asuinpaikka että puoluekannatus korreloivat voimakkaammin tulotason kanssa kuin puolekannatus alueen vieraskielisten määrän kanssa. Varsinkin kun Hamilon implikoitu väite – että maahanmuuttajien lähellä asuminen lisäisi maahan­muutto­vastaisia asenteita ja siten perussuomalaisten suosiota – on ristiriidassa olemassaolevan tutkimustiedon kanssa, vaadittaisiin vähän kattavampaa vaihtoehtoisten selitysmallien poissulkemista, jotta analyysi olisi uskottava.

Datajournalismin tarkoitus ei ole väännellä ja käännellä aineistoa halutun lopputuloksen saamiseksi. Oikean Median ja Hamilon kannattanee vastaisuudessa jättää tämä laji osaavampien heiniksi.

Olen kerännyt kaikki käytetyt datat yhteen CSV-muotoiseen taulukkoon, jonka halukkaat voivat ladata omien analyysien tekemistä varten.

Kuntavaaleissa oli vain häviäjiä

Kuntavaalien vaalistudiota katsellessa vaikutti siltä, että liki jokaisen puolueen puheenjohtaja oli sitä mieltä, että juuri hänen puolueensa selviytyi näistä vaaleista voittajana: suurin ääniosuus, eniten valtuutettuja, pienin pudotus ääniosuudessa, liikkuvaan junaan hypänneeltä uudelta puheenjohtajalta huima tulos… Käytännön politiikan teon kannalta valtuustopaikat ratkaisevat ja siinä valossa moni näistä selityksistä voi olla järkeenkäypä. Jos kuitenkin katsotaan eri puolueiden kansalaisilta saamaa mandaattia, voi todeta, ettei näissä vaaleissa ollut kuin häviäjiä.

Vaalien äänestysprosentti, 58,2 %, on aivan surkea. Puolueet paukuttelevat nyt henkseleitään kun ovat saaneet ison siivun pienestä kakusta. Mutta kun katsotaan kuinka moni äänestäjä antoi kullekin puolueelle äänensä, lopputulos on että mikään, siis mikään puolue ei onnistunut keräämään lisää äänestäjiä verrattuna sekä edellisiin kuntavaaleihin 2008 että viimeisimpiin vaaleihin, jotka olivat siis vuoden 2011 eduskuntavaalit. (Presidentinvaaleja en pidä vertailukelpoisena koska niissä puoluetaustan rooli on vähäisempi.) Perussuomalaiset paransivat kyllä äänisaalistaan viime kuntavaaleihin verrattuna, mutta eduskuntavaaleihin verrattuna puolueen äänestäjien määrä on lähes puolittunut.

Oheiseen taulukkoon ja sen lukujen pohjalta laadittuun grafiikkaan on listattu nämä madonluvut. (Luvut on painotettu kussakin vaalissa äänioikeutettujen määrän mukaan, eli tarkalleen ottaen ilmoitettu muutos on puolueen saamassa osuudessa kaikkien äänioikeutettujen äänistä, ei absoluuttisissa äänimäärissä.)

muutos 2008– muutos 2011–
Kokoomus –11,4 % –12,1 %
SDP –12,5 % –16,1 %
Perussuomalaiset +58,7 % –47,0 %
Keskusta –11,8 % –3,0 %
Vihreät –9,4 % –3,7 %
Vasemmistoliitto –13,4 % –19,4 %
RKP –4,7 % –9,6 %
Kristillisdemokraatit –15,2 % –24,1 %
Suomen Työväenpuolue –27,5 % –72,8 %
Itsenäisyyspuolue –13,8 % –60,8 %
Köyhien Asialla –47,8 % –58,8 %
Piraattipuolue –61,8 %
Vapauspuolue –99,7 %
Muutos 2011 –83,8 %
Suomen Kommunistinen Puolue –22,1 % +17,1 %
Kommunistinen Työväenpuolue –35,5 % –56,7 %
Muut ryhmät –37,4 % +83,5 %

Ainoat puolueet, joiden saama äänimäärä on laskenut alle kymmenyksellä molemmista vertailuvaaleista ovat vihreät ja rkp ja nekin vain juuri ja juuri. Eipä ole hurraamista.

Kyllä poliitikoilla on tässä iso peiliin katsomisen paikka. Koko demokraattisen järjestelmämme legitimiteetti on koetuksella, jos tällainen kehitys jatkuu.

______________________________

Lisäys 29.10.2012 

Tässä vielä painottamattomat luvut, eli siis muutokset puolueiden saamien äänten kappalemäärissä. Yleiskuva säilyy aika pitkälti samana. Keskusta ja vihreät ovat nollatuloksessa edellisiin eduskuntavaaleihin verrattuna ja kaikki miinusprosentit pienenevät hieman painotettuihin lukuihin verrattuna, mutta aika surkealta tulos näyttää näinkin arvioituna.

muutos 2008– muutos 2011–
Kokoomus –9,1 % –9,1 %
SDP –10,1 % –13,2 %
Perussuomalaiset +61,5 % –45,1 %
Keskusta –9,4 % +0,3 %
Vihreät –7,0 % –0,4 %
Vasemmistoliitto –11,1 % –16,6 %
RKP –2,1 % –6,5 %
Kristillisdemokraatit –12,9 % –21,5 %
Suomen Työväenpuolue –25,6 % –71,8 %
Itsenäisyyspuolue –11,5 % –59,5 %
Köyhien Asialla –46,4 % –57,5 %
Piraattipuolue –60,4 %
Vapauspuolue –99,7 %
Muutos 2011 –83,2 %
Suomen Kommunistinen Puolue –20,1 % +21,1 %
Kommunistinen Työväenpuolue –33,8 % –55,2 %
Muut ryhmät –35,7 % +88,1 %