Eurovaalien kovin kilpailu käytiin vihreiden ja demarien välillä

Eurovaalituloksen ensimmäisissä analyyseissä on noussut vahvasti esiin arvio, että viime eurovaaleihin nähden huonosti menestyneet vihreät menettivät ääniä ennen kaikkea hallitusvastuusta keväällä luopuneelle vasemmistoliitolle. Koko maan lukuja katsoessa tämä on houkutteleva tulkinta, olihan vasemmiston vaalivoitto suunnilleen vihreiden tappion suuruinen.

Ilmeisin selitys ei kuitenkaan välttämättä pidä paikkaansa tarkemman analyysin valossa. Jos vihreät olisivat menettäneet äänestäjiään ennen kaikkea vasemmistoliitolle, tämän pitäisi näkyä äänestysaluekohtaisessa tarkastelussa niin, että vihreiden tappio olisi suurin niillä alueilla joissa vasemmisto on onnistunut houkuttelemaan eniten äänestäjiä. Näin ei kuitenkaan näyttäisi olevan.

Tein vertailun sunnuntain eurovaalien ja vuoden 2012 kunnallisvaalien tuloksesta äänestysalueittain. (Vertailu edellisiin eurovaaleihin ei onnistu yhtä helposti, koska ainakaan vielä tätä kirjoittaessa oikeusministeriö ei ole julkaissut vuoden 2009 äänestysaluekohtaisia tuloksia yhtä kätevässä kootussa koneluettavassa muodossa kuin vuoden 2012 kuntavaaleista ja 2014 eurovaaleista on saatavilla. Tieto on sinänsä saatavilla ja ajan salliessa koitan myöhemmin ottaa sen mukaan analyysiin.) Satunnaisvaihtelun karsimiseksi otin mukaan vain sellaiset äänestysalueet, joilla molemmissa vaaleissa oli annettu yhteensä vähintään tuhat ääntä.

Käytin korrelaation mittarina helposti laskettavaa Pearsonin korrelaatiokerrointa, joka ei välttämättä ole paras mahdollinen tilastollinen analyysimenetelmä, mutta olen sen oheen tehnyt myös interaktiivisen grafiikan, jonka avulla lukija voi itse arvioida, kertovatko pelkät numerot koko totuuden vaalituloksesta.

Grafiikassa voi valita vaaka- ja pystyakselille yhden kahdeksasta isoimmasta eduskuntapuolueesta, muiden puolueiden yhteisen äänisaaliin tai yleisen äänestysaktiivisuuden. Akselien arvot ovat siis muutoksia puolueen kyseisen äänestysalueen äänistä saamassa prosenttiosuudessa vuoden 2012 kuntavaalien ja viime sunnuntain eurovaalien välillä. Renkaiden värit viittaavat vaalipiiriin. Tarkemmat tiedot äänestysalueesta saa viemällä hiiren sitä kuvaavan renkaan päälle.

Jos vaaka- ja pystyakselille valittujen puolueiden vaalituloksen välillä on vahva yhteys niin, että toinen on selvästi vienyt ääniä toiselta, äänestysalueita kuvaavien renkaiden muodostaman pistepilven pitäisi muodostua kuvion lävistäjän ympärille. Vaaka- tai pystysuuntainen pilvi viittaa siihen, ettei yhteyttä puolueiden vaalimenestyksen välillä ole. (Tällaista kuviotyyppiä kutsutaan parvikuvioksi.)

Vihreiden ja vasemmistoliiton vaalimenestystä kuvaava kuvio on voimakkaasti pystysuuntainen, joka tarkoittaa, että vihreiden ääniosuus on vaihdellut paljon edellisistä vaaleista äänestysalueesta riippuen, kun taas vasemmistoliitto on parantanut ääniosuuttaan keskimäärin melko tasaisesti eri puolilla maata. Vahvaa yhteyttä ääniosuuden muutoksien välillä ei näy, korrelaatiokerroin saa arvon r = –0,15 jota ei voi pitää kovin suurena.

Sen sijaan vihreiden ja SDP:n vaalimenestyksen välillä näkyy huomattavasti vahvempi yhteys, r = –0,48. Vihreiden menestys korreloi melko voimakkaasti myös äänestysaktiivisuuden muutoksen kanssa: r = –0,41. Nopea tulkinta on, että SDP on menettänyt äänestäjiään vihreille, mutta vihreät toisesta päästä nukkuvien puolueelle. (Korjaus: Ensimmäisessä versiossa tähän oli lipsahtanut ajatusvirhe. Jos vihreät olisi menettänyt ääniä ennen kaikkea äänestysaktiivisuuden laskun kautta, korrelaatiokertoimen pitäisi olla positiivinen. Nyt tilanne on päin vastoin niin, että vihreät ovat erityisesti menestyneet niillä äänestysalueilla joilla äänestysaktiivisuus laski paljon kuntavaaleihin verrattuna.) Muitakin potentiaalisia selityksiä luvuille varmasti löytyy, mutta selkeästi yhteys vihreiden ja demarien äänimenestyksen välillä on paljon vahvempi kuin vihreiden ja vasemmiston välillä.

Muiden puolueiden vaalituloksen väliltä ei löydy yhtä vahvoja yhteyksiä. Vahvimmat yksittäiset taisteluparit ovat RKP & kokoomus (r = –0,29) ja perussuomalaiset & kokoomus (r = –0,30). Mielenkiintoinen yllätys on myös vasemmistoliiton ja keskustan pieni kilvoittelu (r = –0,23). Vasemmiston tuore meppi Merja Kyllönen menestyi erinomaisesti juuri Pohjois-Suomessa ja kilpaili äänistä varmasti paljon esimerkiksi Paavo Väyrysen kanssa.

Grafiikassa on vielä pieniä teknisiä virheitä, mutta sen muodostama yleiskuva lienee oikea. Eri asia on kuinka pitkälle meneviä johtopäätöksiä lukujen perusteella voi vielä tehdä. Kuntavaalit ja eurovaalit ovat luonteeltaan erilaisia ja äänestäjät saattavat valita puolueensa näissä vaaleissa kovinkin eri perustein. Toimikoon tämä kuitenkin pienenä datajournalistisena keskustelunavauksena vaalituloksen syvempään analyysiin. Lukijoilla on myös epäilemättä paljon kommentteja valittuihin analyysimenetelmiin ja grafiikan toteutukseen, jotka koitan sitten parhaani mukaan huomioida sitten seuraavassa versiossa. :)

Lisäys 28.4.: Työkaluun on nyt lisätty mahdollisuus tarkastella aiemman ääniosuuden absoluuttisen muutoksen (%-yksikköä) myös äänimäärän absoluuttista muutosta (kpl) sekä ääniosuuden suhteellista muutosta (% suhteessa kuntavaaleihin). Absoluuttisten äänimäärien tarkastelu tarjoaa heikompia korrelaatioita kuin aiempi ääniosuuden muutos, mutta edelleen vihreiden vahvin korrelaatio säilyy nimenomaan demareihin ja vihreät on myös ainut puolue jonka kanssa SDP:n tuloksella on selvästi nollasta poikkeava negatiivinen korrelatio, vaikka kerroin onkin pieni (r = –0,26). Vihreiden ja vasemmistoliiton valtakunnallinen korrelaatio on edelleen heikko. Vihreiden vahvimmilla alueilla Helsingissä ja Uudellamaalla vasemmisto näyttäisi ehkä jonkin verran rokottaneen vihreiden tulosta, mutta vihreiden tappio absoluuttisissa äänissä mitattuna on suurempi kuin vasemmiston voitto.

(Huomautettakoon että absoluuttisen äänimäärien vertaaminen äänestysaktiivisuuteen – joka tässä on annettujen äänten määrän prosentuaalinen lasku kuntavaaleista, ei muutos prosenttiyksikköinä – ei anna järkeviä tuloksia, koska äänestysaktiivisuuden ja isojen puolueiden absoluuttisen äänimäärän korrelaatio on suuri ja pienten puolueiden pieni johtuen ihan siitä miten korrelaatio lasketaan.) Itse asiassa näin ei ole, vaan absoluuttisten äänimäärien vertailu äänestysaktiivisuuteen paljastaa että vihreät ja RKP kärsivät vähiten laskeneesta äänestysaktiivisuudesta, kun taas muiden puolueiden tulos korreloi positiivisesti äänestysaktiivisuuden muutoksen kanssa.

9 Replies to “Eurovaalien kovin kilpailu käytiin vihreiden ja demarien välillä”

  1. Huomionarvoista on myös, että vasemmistoliiton ja pienten puolueiden kannatukset korreloivat ainakin minun silmääni selvästi keskenään.

  2. Kokeileppa mitä vaikuttaa noiden kuviossa selvästi näkyvien poikkeavien havaintojen pudottaminen pois; onko korrelaatio vain niiden vaikutusta?

  3. Muutama yksittäinen outlier ei kovin isosti korrelaatiota vielä hetkauta, koska aineistossa on yhteensä vajaa 600 äänestysaluetta.

  4. Yksi kommentti toteutukseen ja kaksi sisältöön:

    Toteutus:

    Eikö kuvioon kannattaisi piirtää se (regressio)suora, joka tuossa lasketaan, mukaan? Eikö silloin tulkitsija voisi paljon paremmin mietitä, onko kyseessä esimerkiksi juuri outliereiden tuottama artefakti, vai oikeasti muuttujien yhteyttä kuvaava sovite?

    Sisältö:

    nyt täytyy muistaa, että tässä tosiaan vertaillaan omenoita ja meloneja. Vihreiden menestys korreloi äänestysaktiivisuuden kanssa, mutta nimenomaan verrattuna kunnallisvaaleihin: vihreät äänestävät noin suunnilleen yhtä aktiivisesti näissä ja muissa vaaleissa (tai ovat ennen äänestäneet, nyt itse asiassa tuli vähän alaspäin), kaikki muut puolueet merkittävästi laiskemmin. Lisäksi kun katsotaan kunnallisvaaleissa vihreiden ja vasemmiston eroa, niin tämä sama liikahdus oli tapahtunut jo niissä.

    Toinen, vakavampi ongelma sisällössä:
    Korrelaatio mittaa kahden muuttujan yhteisvaihtelua riippumatta akselien kohdasta, eikö? Musta tuntuu, että korrelaatio ei välttämättä kerro aivan sitä, mitä tässä blogimerkinnässä oletetaan sen kertovan. Eikö voisi aika painokkaasti väittää, että vihreiden ja sdp:n välinen korrelaatio itse asiassa johtuu todella paljolti siitä, että on paljon sellaisia paikkoja, joissa SEKÄ vihreiden että demarien kannatus laski, siis kuvion keskiakselin vasemmasta puolesta? Eihän siitä, että demareiden kannatus jollain alueella (vaikkapa Uomatie, Vantaa) laskee melkein kymmenen ja vihreiden melkein viisi prosenttia voida missään nimessä päätellä, että vihreät ovat siellä vieneet ääniä demareilta.

    Jos haluaa tutkia sitä, että menettivätkö demarit ääniä vihreille, pitäisi siis katsoa ainoastaan niitä paikkoja, joissa vihreät saivat ääniä ja demarit menettivät – tai toisinpäin. Sellaiset paikat joissa molemmat saivat tai menettivät eivät kai voi vastata tähän kysymykseen?

  5. Hei,

    Kiitos hyvistä huomioista. Tässä muutama kommentti:

    Visualisointi ei käytä valmista työkalua vaan on rakennettu D3.js-kirjaston pohjalle, joten trendiviivan piirtäminen ei onnistu ihan sormia napsauttamalla. Muuten sen olisin toki grafiikkaan jo lisännytkin. :) Ehkäpä jossain myöhemmässä vaiheessa kun on enemmän aikaa, muutama muukin uusi ominaisuus on mietintämyssyssä.

    Kuntavaalien ja eurovaalien vertailu on ongelmallista mainitsemastasi syystä, mutta niin kauan kunnes oikeusministeriö tuottaa samanlaisen könttä-csv:n viime eurovaalien tuloksesta, en pysty tekemään vertailua eurovaalien välillä muutoin kuin ”raapimalla” tiedot oikeusministeriön sivuilta. Sen vaatimaan lisätyöhön minulla taas ei ole juuri nyt aikaa, mutta palaan kyllä asiaan heti aikataulun sen salliessa. Kuntavaalit ovat joka tapauksessa minusta parempi vertailukohta kuin eduskuntavaalit, joista on enemmän aikaa ja joissa äänestysaktiivisuus on kautta linjan korkeampi. Jos eurovaalidata vuodelta 2009 olisi ollut helposti saatavilla, olisin tehnyt version jossa käyttäjä voi itse valita verrataanko edellisiin vastaaviin vaaleihin (euro 2009) vai viimeisimpiin vaaleihin (kunta 2012). (Ideaalitilanteessa työkalu sallisi vertailuvaalien poimimisen isommastakin joukosta, tosin se vaatisi joidenkin tähän tehtyjen hätäisten teknisten ratkaisujen korjaamista kunnollisiksi mikä taas vie lisää työaikaa.)

    Mitä sitten tulee siihen mitä korrelaatio oikeastaan kertoo: Ison datasetin yksittäiseksi numeroksi summaava matemaattinen menetelmä on väistämättä hyvin karkea työkalu ja lineaarista korrelaatiota mittaava Pearsonin korrelaatiokerroin vielä erityisesti. Pointtina onkin mahdollistaa interaktiivisen grafiikan avulla visuaalinen analyysi, joka saattaa paljastaa aineistosta paljon enemmän kuin mikään yksittäinen tunnusluku. (Vrt. http://en.wikipedia.org/wiki/Anscombe%27s_quartet) Saatetekstissä ja varsinkin sen otsikoinnissa on ehkä pientä skuuppauksen makua jolle ei välttämättä löydy täydellistä katetta, se myönnettäköön. ;)

    Mitkään äänestysalueittain lasketut tunnusluvut eivät pysty yksinään kertomaan varmasti yksittäisten äänestäjien äänestyskäyttäymisen muutoksista. Esimerkiksi tilanne, jossa demarit menettävät tuhat äänestäjää vihreille, vihreät tuhat äänestäjää vasemmistoliitolle ja vasemmisto 500 demareille näyttäytyisi datassa samana kuin tilanne jossa SDP olisi menettänyt 500 ääntä suoraan vasemmistoliitolle. Kun useiden satojen äänestysalueiden tulosten korrelaatiota tai muita keskinäisiä suhteita tarkastellaan saatetaan pystyä sanomaan jotain laajemmista muutoksista äänestäjäkunnassa jos ilmiöt ovat riittävän voimakkaita, mutta neutraalin data-analyysin ja ”punditryn” ero voi olla hiuksenhieno. Useimmilla politiikkaa seuraavilla on kokemukseni mukaan taipumusta ylitulkita dataa ja löytää siitä narratiiveja, jotka kertovat enemmän havainnoitsijasta kuin datasta – myself included.

    Lisäsin työkaluun nyt myös mahdollisuuden vertailla absoluuttisten äänimäärien muutoksia sekä ääniosuuden suhteellista (prosenttia kuntavaalien ääniosuudesta) muutosta aiemman ääniosuuden absoluuttisen (%-yksikköä) muutoksen oheen. Kappalemääräisessä tarkastelussa SDP:n ja vihreiden äänten välinen korrelaatio loivenee, mutta pysyy edelleen vihreiden vahvimpana. Vihreät on myös ainut puolue, jonka kanssa SDP:n äänimäärä korreloi negatiivisesti. (Myös RKP:n kanssa korrelaatio on lievästi miinuksen puolella, mutta lähes olematon, r = 0,09.)

    Jos katsotaan itse grafiikkaa, lähes kaikki äänestysalueet, joissa vihreät onnistui lisäämään absoluuttisesti äänimääräänsä ovat sellaisia, joissa SDP menetti ääniä. Päinvastaisia äänestysalueita on vain yksi, Kauniainen, jossa demarit voittivat 8 ja vihreät hävisivät 7 ääntä. Huomionarvoista on ehkä se, että nämä eivät pääasiassa ole vihreiden vahvoja kannatusalueita Helsingissä ja Uudellamaalla, vaan Hämeessä, Pohjois-Karjalassa ym. ja demarien tappio on useimmissa selvästi vihreiden voittoa suurempi. Onko kyse sitten siitä, että vihreät ovat saaneet jonkin verran uusia ääniä entisistä demareista vai meneekö esimerkiksi puhtaasti ikärakenteen muutoksen tms. tekijän piikkiin?

  6. Haluatko Veikko siis sanoa että vain *negatiivisesta* korrelaatiosta eli laskevasta regressiosuorasta voi yrittää päätellä äänestäjien liikkuvuutta puolueesta toiseen? Näin ainakin itse järkeilisin, ja niin kai tässä tehdäänkin, joskaan sitä ei eksplisiittisesti sanota. Tai ehkä vähän harhaanjohtavasti sanotaan, että yhteys on, jos kuvio muodostuu lävistäjän ympärille, mutta oikeastaan pitäisi kai katsoa vain toista lävistäjää, vasemmasta yläkulmasta oikeaan alakulmaan, eli laskevaa suoraa.

    Korrelaatio toki johtuu lähinnä kuvion pystyakselin vasemmasta puolesta ja vaaka-akselin alapuolesta, koska melkein kaikilla äänestysalueilla sekä SDP että vihreät menettivät ääniä, mutta eihän se vaikuta korrelaatiokertoimeen? Sama negatiivinen kerroin eli laskeva suora olisi mahdollinen, vaikka molemmat puolueet olisivat kasvattaneet äänimääräänsä.

    Se, mitä tästä näkyvä pystyakselin vasemmalle puolelle ja vaaka-akselin alapuolelle sijoittuva laskeva suora kertoo, on että nämä puolueet menettivät ääniä, mutta more often than not eri äänestysalueilla, eikö? Ja siitä voidaan pyrkiä päättelemään, että sellaisella äänestysalueella, jolla toinen menetti toisen voittaessa (tai toinen hävisi huomattavasti enemmän kuin toinen), siirtymää häviäjältä voittajalle oli. Ilman kyselyaineistoa tämä kai on puutteellisuudestaan huolimatta ainoa tapa yrittää tutkia äänestäjien liikkuvuutta.

  7. Tosiaan se jäi ehkä avaamatta että mikä on negatiivisen ja positiivisen korrelaation tulkinnan ero. Molemmat kertovat siis siitä että kahden puolueen vaalimenestyksen välillä on yhteys, mutta negatiivinen korrelaatio (pisteet asettuvat lävistäjälle joka kulkee vasemmalta ylhäältä oikealle alas) saattaa merkitä että toinen puolue on vienyt ääniä toiselta, kun taas positiivinen korrelaatio (pisteet asettuvat vastakkaiselle lävistäjälle) tarkoittaa että puolueet ovat menestyneet samoilla alueilla. Korrelaatio ylipäänsä ei tietenkään todista kausaalisuhdetta, vain ainoastaan antaa viitteen että sellainen saattaa olla olemassa. Joka tapauksessa ihan hirveän vahvoja korrelaatioita aineistosta ei löydy, varsinkaan kun tarkastellaan äänten kappalemääräisiä muutoksia, joten kovin pitkälle meneviä johtopäätöksiä ei tällä aineistolla ja menetelmällä ehkä voi vielä tehdä.

  8. Mielenkiintoinen tarkasteluväline, mutta ei riittävä analysointiväline. Minusta pitäisi vielä selvittää mikä vaikutus on ollut sillä, että molempien ko puolueiden kuntavaaliäänestäjät ovat suhteessa samassa määrin jättäneet äänestämättä EU-valeissa.

Vastaa

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *