artikkelit – Sivu 2 – Informaatiomuotoilu.fi

2017-03-162017-03-16

Parannusehdotuksia HSL:n pysäkkinäyttöihin

Helsingin Sanomat kirjoittaa, että HSL reagoi vihdoin asiakaspalautteeseen uuden matkakortinlukijan hankalakäyttöisyydestä. Itse en pidä laitteen käyttöliittymää välttämättä kokonaisuutena arvioiden edeltäjäänsä huonompana, mutta se voisi olla paljon parempikin. On hyvä, että HSL ottaa saamansa palautteen vakavasti ja jatkaa käyttöliittymän kehitystyötä.

Uutinen toi mieleeni toisen HSL:n sinänsä hyödyllisen ”käyttöliittymän”, jossa on muutama ärsyttävä mutta helposti korjattavissa oleva puute. Tarkoitan tietysti pysäkkinäyttöjä.

HSL-alueen vilkkaimmilla pysäkeillä on käytössä näytöt, jotka kertovat seuraavien bussien ja/tai raitiovaunujen saapumisajat. Nykyinen näyttö näyttää suunnilleen tältä:

(Kuva on silmämääräisesti tehty mukaelma nykyisestä näytöstä. En löytänyt HSL:n sivuilta tai muualtakaan tarkkaa mallia, jonka perusteella typografian ja värit olisi voinut hioa täsmällisesti vastaamaan käytössä olevia näyttöjä.)

Näyttö on hyödyllinen, mutta siinä on yksi iso puute: teksti on niin pientä, että esimerkiksi kadun toiselta puolelta on turha yrittää saada selvää seuraavan kulkuvälineen lähtöajasta.

Itseäni häiritsee myös, että jos pysäkille sattuu ilta-aikaan, jolloin päivän lähtöjä on jäljellä enää muutamia, aamun ensimmäiset vuorot on kuvattu visuaalisesti aivan samalla tavalla kuin muutkin. Illan viimeisen ja aamun ensimmäisen kulkupelin välillä voi kuitenkin olla tuntien mittainen katkos. Viikonloppuiltana kun ympäristön havainnointi ei aina muutenkaan ole terävimmillään tämä johtaa joskus pitkäänkin turhaan odotteluun pysäkillä ennen kuin huomaa, että seuraava sporahan tulee vasta monen tunnin päästä.

Molemmat puutteet olisi helppo korjata varsin pienin muutoksin nykyiseen käyttöliittymään:

Varataan seuraavaksi saapuvalle vuorolle isompi tila, jolloin tekstit voi laittaa niin isolla, että ne näkyvät kauemmaskin.
Näytetään ne vuorot, joiden lähtöön on esimerkiksi yli 30 minuuttia sekä nykyhetkestä että edeltävästä vuorosta eri värillä kuin muut.

Jo näillä muutoksilla pysäkkinäyttöjen käytettävyys paranisi huomattavasti. Mutta käyttöliittymää voisi parantaa tästäkin. Tein nopean kokeilun siitä, miltä näyttö voisi näyttää, jos siinä hyödynnettäisiin vähän nykyistä paremmin typografisia hierarkioita:

Värimaailma ja kirjaintyypit on myös muutettu paremmin HSL:n ilmeen mukaiseksi. (Kellonaikoihin on tosin käytetty HSL:n Gotham-fontin sijaan tässä karkeassa luonnoksessa Neuzeit Groteskia, sillä Gothamista puuttuvat taulukkokäyttöön tarkoitetut versaalinumerot. Ks. tarkemmin Koponen, Hildén & Vapaasalo 2016, s. 286.)

Yllä oleva on vain nopea ja väistämättä karkea luonnos siitä, miten itseäni häiritsevät ongelmakohdat pysäkkinäytöissä voisi helposti fiksata. Todellisessa suunnittelutyössä pitäisi tietenkin huomioida iso määrä teknisiä reunaehtoja, joita tuskin olen osannut ottaa huomioon. Eri vaihtoehtoja pitäisi myös ennen käyttöönottoa testata oikeilla käyttäjillä eikä vain luottaa suunnittelijan suvereeniin osaamiseen. Käyttäjätestaus on kallista ja tilaajalla on usein kiusaus ajatella, että kyllä muotoilija osaa muotoilla. Paraskaan käyttöliittymäsuunnittelija ei kuitenkaan pysty ennakolta aavistamaan kaikkea, mitä todellisissa käyttötilanteissa tulee esiin.

HSL:n nykyisiä pysäkkinäyttöjä on ”testatttu” käytännössä jo pitkään ja meillä kaikilla on niistä omakohtaisia käyttökokemuksia. Olenkin varma, että monella muullakin on paljon lisää ideoita siitä, miten näytöistä saisi selkämpiä ja matkustajille hyödyllisempiä. On aika avata keskustelu paremmista pysäkkinäytöistä! Toivotaan, että esiin nousevat ideat päätyvät myös HSL:n tietoon ja osaltaan edesauttavat yhä parempien pysäkkinäyttöjen syntyä.

Lisäys klo 21:10: Tässä vielä some-keskusteluissa esiin nousseiden kommenttien perusteella muokattu ja Tero Juutin tekemän luonnoksen innoittama uusi versio.

Huomionarvoista on, että bussien linjatunnisteet ovat pitempiä kuin raitiovaunuilla, joten tämä sama asettelu ei välttämättä toimi bussipysäkeillä.

2017-03-122017-03-16

Oikean Median puoluekannatusanalyysi on huonosti tehtyä ja laiskaa datajournalismia

Arvokonservatiiviseksi vaihtoehtomediaksi itsensä määrittelevä Oikea Media julkaisi lauantaina Marko Hamilon kirjoittaman puolueiden kannatusta ja vieraskielisten osuutta Helsingin eri alueilla vertailevan datajournalismijutun otsikolla ”Maahanmuuton kannattajat asuvat kaukana monikulttuurisesta arjesta”.

Analyysin keskeinen sisältö tiivistetään Hamilon jutussa näin:

– – Sdp ja Perussuomalaiset saavat paljon ääniä monikulttuurisilta alueilta, sen sijaan Kokoomuksen ja Vihreiden kannatus on heikompaa siellä missä monikulttuurisuus on voimakasta. Vasemmistoliiton kannatus ei riipu äänestysalueen monikulttuurisuuden asteesta.

On ilahduttavaa, että konservatiivitkin yrittävät vaihteeksi käydä yhteiskunnallista keskustelua asia-argumentein. Valitettavasti artikkeli perustuu virheellisesti käsiteltyyn dataan eikä edes tämä virheellinen aineisto lähemmin tarkasteltuna täysin tue Hamilon sanallisesti esittämää tulkintaa.

Käytetty aineisto soveltuu tarkoitukseen huonosti ja käytetty menetelmä on kuvattu puutteellisesti

Puolueiden kannatuksen ja ”monikulttuurisuuden”, joka Hamilon artikkelissa määritellään vieraiden kielten puhujien osuudeksi, vertailu on lähtökohtaisesti hankalaa, sillä näistä teemoista saatavilla olevat tilastot käyttävät erilaista aluejakoa. Äänestysalueita ei käytetä väestötilastojen aluejakona, joten vieraiden kielten puhujien osuus on saatavilla vain niiden kanssa yhteensopimattomalla aluejaolla, esimerkiksi kaupunginosittain (Helsingin seudun aluesarjat -sivustolta) tai postinumeroalueittain (Tilastokeskuksen PAAVO-tietokannasta). Hamilo ilmoittaa käyttäneensä lähteenä aluesarjojen aiheistoa.

Alla oleva Helsingin kartta kuvaa sitä, miksi tämä on ongelma. Äänestysalueiden rajat eivät vastaa yksi yhteen kaupunginosien (tai postinumeroalueiden) rajoja. Kartassa mustalla näkyvät ne rajat, jotka ovat sekä kaupunginosien että äänestysalueiden rajoja, vihreällä vuoden 2012 kuntavaalien äänestysalueiden rajat ja oranssilla kaupunginosien rajat. Lisäksi vihreänharmaalla on merkitty ne äänestysalueiden rajat, jotka muuttuivat vuonna 2013.

(Kuva aukeaa klikkaamalla suuremmaksi.)

Sellaisissa tapauksissa, joissa kaikki kaupunginosaan kuuluvat äänestysalueet mahtuvat kokonaan sen rajojen sisäpuolelle ongelmaa ei synny, koska tällöin tulokset voidaan laskea yhteen ja muodostaa näin kaupunginosakohtaiset luvut. Ongelmia tuottavat sellaiset äänestysalueet, jotka ulottuvat kahden tai useamman kaupunginosan puolelle.

Yllä olevalla kartalla oranssina näkyvät kaupunginosien rajat ovat sellaisia kohtia, joissa äänestysalue ulottuu useamman kaupunginosan alueelle. Esimerkiksi äänestysalue 003A Kaartinkaupunki pitää sisällään Kaartinkaupungin kaupunginosan lisäksi myös Kaivopuiston sekä ison siivun Ullanlinnasta.

Hamilo ei selitä miten hän on ratkaissut aluejakojen yhteensovittamiseen liittyvät ongelmat. Asian selvittämistä hankaloittaa, että hän käyttää kaupunginosista pääosin muita kuin niiden virallisia nimiä. Joissain kohdin tämä on sisällöllisesti perusteltua: harva esimerkiksi tietää, että Itäkeskus ja Myllypuro kuuluvat molemmat virallisesti Vartiokylä-nimiseen kaupunginosaan (numero 45), joten nimitys Itäkeskus–Myllypuro on virallista nimeä havainnollisempi. Monet Hamilon valitsemat nimitykset ovat kuitenkin harhaanjohtavia: hän kutsuu esimerkiksi Länsisataman kaupunginosaa (20) Ruoholahdeksi, vaikka kaupunginosaan kuuluvat Ruoholahden lisäksi myös Jätkäsaari, Lapinlahti ja Hernesaari.

Hamilo vaikuttaa myös jättäneen viisi kaupunginosaa kokonaan pois analyysistään perustelematta ratkaisua mitenkään. Puuttuvat kaupunginosat ovat Kaivopuisto (09), Laakso (18), Vanhakaupunki (27), Viikki (36) ja Vartiosaari (48). Varsinkin n. 15 000 asukkaan Viikin jättäminen pois on erikoinen veto, joka kaipaisi jonkin perustelun tuekseen. Uskoisin tämän liittyvän jollain tavalla äänestysalueiden ja kaupunginosien yhteensovitusongelmaan, mutta kun metodologiaa ei ole tekstissä avattu, asia jää mysteeriksi.

Olen koonnut alla olevaan taulukkoon käsitykseni siitä, mitä virallisen aluejaon kaupunginosaa mikin Hamilon käyttämä nimitys tarkoittaa:

Hamilon käyttämä kaupunginosan nimi	kaupunginosan virallinen nimi ja numero	asukasluku 1.1.2016
Alppila	12 Alppiharju	11 937
Etu-Töölö	13 Etu-Töölö	14 559
Haaga	29 Haaga	26 771
Hermanni	21 Hermanni	6 325
Herttoniemi-Roihuvuori	43 Herttoniemi	26 216
Itäkeskus-Myllypuro	45 Vartiokylä	33 956
Jakomäki	41 Suurmetsä	16 209
Kaartinkaupunki	03 Kaartinkaupunki	1 050
Kallio	11 Kallio	19 434
Kamppi-Hietalahti	04 Kamppi	11 709
Kannelmäki-Malminkartano	33 Kaarela	27 357
Käpylä	25 Käpylä	8 114
Katajanokka	08 Katajanokka	4 470
Kluuvi	02 Kluuvi	636
Konala	32 Konala	6 197
Kontula-Mellunmäki	47 Mellunkylä	37 600
Koskela	26 Koskela	3 336
Kruununhaka	01 Kruununhaka	7 376
Kulosaari	42 Kulosaari	3 806
Kumpula	24 Kumpula	3 838
Laajasalo	49 Laajasalo	16 630
Lauttasaari	31 Lauttasaari	22 617
Malmi	38 Malmi	24 664
Maunula	28 Oulunkylä	23 333
Meilahti	15 Meilahti	5 091
Munkkiniemi	30 Munkkiniemi	17 629
Pakila	34 Pakila	10 399
Paloheinä	35 Tuomarinkylä	8 982
Pasila	17 Pasila	9 219
Pitäjänmäki	46 Pitäjänmäki	11 726
Pukinmäki	37 Pukinmäki	8 383
Punavuori-Eira	05 Punavuori + 06 Eira	10 163
Ruoholahti	20 Länsisatama	10 350
Ruskeasuo	16 Ruskeasuo	10 373
Santahamina	51 Santahamina	423
Sörnäinen	10 Sörnäinen	9 634
Suomenlinna	52 Suomenlinna	790
Taka-Töölö	14 Taka-Töölö	15 244
Tammisalo	44 Tammisalo	2 247
Tapanila	39 Tapaninkylä	14 159
Tapulikaupunki	40 Suutarila	19 901
Toukola	23 Toukola	8 777
Ullanlinna	07 Ullanlinna	10 629
Vallila	22 Vallila	9 326
Vuosaari	54 Vuosaari	37 834
Östersundom	55 Östersundom + 58 Karhusaari + 59 Ultuna	1 961
puuttuvat kokonaan	09 Kaivopuisto 18 Laakso 27 Vanhakaupunki 36 Viikki 48 Vartiosaari	yht. 17 901

Taulukosta ilmenee eräs muukin käytetyn aluejaon ongelma. Äänestysalueet ovat asukasluvultaan likimain samankokoisia, useimmiten noin 2 000–4 000 henkeä, joten niiden suora vertailu on vielä kohtalaisen mielekästä ilman sen kummempia painokertoimia. Hamilon vertailemien kaupunginosien asukasluvut kuitenkin vaihtelevat 423 asukkaan Santahaminasta 37 800 asukkaan Vuosaareen. On kyseenalaista, millaisia johtopäätöksiä näin erilaisia alueita suoraan vertailemalla voi ylipäänsä tehdä.

Hamilo on päätynyt yhdistämään vuosien 2008, 2011, 2012 ja 2015 vaalien tulokset yhdeksi luvuksi. Niin puolueiden kannatus kuin vieraskielisten määräkin on vaihdellut eri alueilla tällä ajanjaksolla paljon, eikä Hamilo selitä, miten hän on ottanut vaihtelun huomioon. Runsas vieraskielisten määrä vuonna 2015 tuskin on voinut vaikuttaa takautuvasti puolueiden kannatukseen vuonna 2008. (Pieniä lisähankaluuksia saattaa joissain kohdin tuottaa myös, että äänestysalueiden rajoja on muutettu vuosina 2010 ja 2013.)

Minulle jää myös epäselväksi, miten Hamilon ilmoittama vieraskielisten osuus eri kaupunginosissa on laskettu. Se ei aluesarjojen luvuilla nopeasti testailtuna vaikuttaisi olevan ainakaan vaalivuosien painotettu tai painottamaton keskiarvo, minkään yksittäisen vaalivuoden luku eikä myöskään tuorein Aluesarjat-sivustolta löytyvä luku eli tilanne vuoden 2016 alussa.

Jos analyysin olisi tehnyt jokin luotettava, journalistin ohjeisiin sitoutunut media, tai vielä parempaa, yliopistossa tai vaikkapa sektoritutkimuslaitoksessa työskentelevä ammattitutkija, saattaisin ehkä olla valmis uskomaan, että kaikille yllä mainitsemilleni erikoisille ratkaisuille löytyy hyvä perustelu ja ongelmakohdat on pystytty tavalla tai toisella taklaamaan. Hamilon ja Oikean Median uskottavuus ei kuitenkaan ole sillä tasolla, että ilman yksityiskohtaisia perusteluja voisi noin vain olettaa tekijän tietävän mitä tekee – varsinkin kun aineiston lähempi tarkastelu tuntuu pikemminkin lisäävän kysymyksiä kuin vastaavan niihin.

Edes Hamilon käyttämä data ei tue hänen johtopäätöksiään

Kelpuuttakaamme kuitenkin keskustelun vuoksi Hamilon käyttämä data kaikkine epäselvyyksineenkin. Tukeeko käytetty aineisto kirjoittajan sanallista tulkintaa? Hamilo toteaa kuvioiden lukuohjeessa mm. näin:

Jos puolueen kannatus korreloi positiivisesti monikulttuurisuuden kanssa, on trendi nouseva oikealle mentäessä.

Hamilo on siis kiinnostunut siitä, miten puolueen kannataus korreloi ”monikulttuurisuuden” (eli vieraskielisten osuuden kanssa). Tässä kohdin on hyvä muistuttaa siitä, mitä korrelaatio oikeastaan tarkoittaa. Tiivis määritelmä löytyy esimerkiksi Tieto näkyväksi -kirjasta (s. 195):

Korrelaatio eli yhteisvaihtelu on suure, joka kuvaa kahden muuttujan keskinäistä riippuvuussuhdetta. Tiedämme esimerkiksi, että ihmisen tulotasolla ja eliniänodotteella on yhteys toisiinsa: suurituloiset elävät keskimäärin pienituloisia vanhemmiksi. Havainto pätee tilastollisella tasolla, vaikka yksilötasolla tästä esiintyykin runsaasti poikkeuksia.

Voimakas korrelaatio viittaa siihen, että muuttujien välillä on jonkinlainen syy-yhteys, mutta ei kerro sitä, kumpi muuttujista on syy ja kumpi seuraus tai löytyykö keskinäisen riippuvuuden takaa kenties jokin kolmas selittävä tekijä. Tämä ei käy ilmi pelkästään tilastollisesta analyysistä, vaan syy–seuraussuhteen selvittäminen vaatii syvällisempää tietoa aiheesta.

Korrelaation laskemiseen on useita matemaattisia menetelmiä, joista käytetyin on Pearsonin korrelaatiokerroin eli r. Se voi saada arvoja välillä –1 … 1. Korrelaatio on sitä voimakkaampi, mitä enemmän r:n arvo poikkeaa nollasta. Negatiiviset arvot kuvaavat käänteistä riippuvuussuhdetta, jossa toisen muuttujan arvo kasvaa toisen pienentyessä.

– –

Tilanteet, joissa r olisi tasan 0, 1 tai –1 ovat varsin harvinaisia. Useimmin korrelaatiokertoimen arvo asettuu jonnekin niiden välimaastoon. Mikä silloin on voimakas tai heikko korrelaatio? Ohessa suuntaa antava jaottelu:

r = 0–0,2 ei korrelaatiota
r = 0,2–0,4 heikko korrelaatio
r = 0,4–0,6 kohtalainen korrelaatio
r = 0,6–0,8 voimakas korrelaatio
r = 0,8–1 erittäin voimakas korrelaatio

Korrelaatio on siis matemaattinen suure, jonka suuruus voidaan visualisoinnista arvioida silmämääräisesti vain karkeasti, mutta jonka laskemiseen on olemassa vakiintunut ja helppo menetelmä.

Jostain syystä Hamilo ei ole laskenut puolueiden kannatuslukujen ja ”monikulttuurisuuden” asteen välisiä korrelaatiokertoimia, vaan nojaa pelkästään laatimiinsa visuaalisiin esityksiin, joita hän tulkitsee lukijalle sanallisesti.

Alla olevaa kuviota tulkitaan mm. näin: ”Vihreiden vankin kannatus löytyy kantasuomalaisten asuttamilta alueilta ja kannatus laskee monikulttuurin lisääntyessä.”

Seuraavaa grafiikkaa kuvaillaan vuorostaan näin: ”Vasemmistoliiton kannatus näyttää olevan tasaista kautta linjan, eikä siis riipu alueen monikulttuurisuusasteesta.”

Minun täytyy sanoa, etten näe kuvioissa Hamilon kuvailemaa eroa. Minun silmiini kumpikaan niistä ei paljasta selkeää yhteyttä puolueen kannatuksen ja ”monikulttuurisuuden” välillä, vaan kaupunginosia kuvaavat pallot ovat kummassakin kuviossa melko lailla hajallaan ympäri koordinaatistoa.

Onneksi asiassa ei tarvitse luottaa pelkkään silmämääriseen arvioon, vaan voimme laskea puolueen kannatuksen ja vieraitten kielten puhujien osuuden korrelaation kullekin puolueelle:

puolue	korrelaatio
SDP	0,72
kokoomus	−0,55
perussuomalaiset	0,51
vihreät	−0,18
vasemmistoliitto	0,15

SDP:n ja monikulttuurisuuden väillä näkyy Hamilon keräämän datan perusteella olevan voimakas (r = 0,72) positiivinen korrelaatio. Myös kokoomuksen ja perussuomalaisten kohdalla korrelaatio on kohtalainen, kuten Hamilo jutussaan kuvaileekin.

Mutta kas vain! Vihreiden ja vasemmistoliiton korrelaatiokertoimet ovat käytännössä samansuuruisia, vaikkakin toki vastakkaissuuntaisia. Toista näistä Hamilo kuvailee siis sanomalla, että ”kannatus laskee monikulttuurin lisääntyessä”, toista taas, ettei kannatus ”riipu alueen monikulttuurisuusasteesta”.

Alle 0,2:n korrelaatiota kuvaillaan yleensä sanoilla ”ei korrelaatiota”. Toisin sanoen, Hamilon väite siitä, että vihreiden kannatus olisi kääntäen verrannollinen ”monikulttuurisuuden” määrään ei kestä lähempää tarkastelua edes hänen omaa dataansa käyttäen. Hamilo on päättänyt analyysinsä tuloksen etukäteen ja näkee kuviossa mitä haluaa, vaikka yksinkertainen tilastollinen analyysi olisi paljastanut, ettei aineisto tue tehtyä johtopäätöstä. Tämä siis sen lisäksi, ettei käytetty aineisto sovi tällaisen analyysin tekemiseen ja sitä on käsitelty virheellisesti ja läpinäkymättömästi.

Näiden puutteiden lisäksi voisin listata vielä lisääkin. Esimerkiksi: Miksi tarkastelu on rajattu vain Helsinkiin? Eikö vähintään muut pk-seudun kunnat ja kenties muutkin suuret kaupunkiseudut olisi syytä ottaa mukaan isomman otoksen ja siten robustimman analyysin aikaansaamiseksi?

Entäpä miksi jutussa ei ole lainkaan käsitelty vaihtoehtoisia selityksiä havaituille puoluekannatuksen alueellisille eroille? Uskaltaisin veikata, että sekä asuinpaikka että puoluekannatus korreloivat voimakkaammin tulotason kanssa kuin puolekannatus alueen vieraskielisten määrän kanssa. Varsinkin kun Hamilon implikoitu väite – että maahanmuuttajien lähellä asuminen lisäisi maahanmuuttovastaisia asenteita ja siten perussuomalaisten suosiota – on ristiriidassa olemassaolevan tutkimustiedon kanssa, vaadittaisiin vähän kattavampaa vaihtoehtoisten selitysmallien poissulkemista, jotta analyysi olisi uskottava.

Datajournalismin tarkoitus ei ole väännellä ja käännellä aineistoa halutun lopputuloksen saamiseksi. Oikean Median ja Hamilon kannattanee vastaisuudessa jättää tämä laji osaavampien heiniksi.

Olen kerännyt kaikki käytetyt datat yhteen CSV-muotoiseen taulukkoon, jonka halukkaat voivat ladata omien analyysien tekemistä varten.

2017-03-01

Valtiovarainministeriön työllisyysgrafiikka ei johda tarkoituksella harhaan

Valtiovarainministeriö julkaisi eilen Twitter-tilillään grafiikan avoimien työpaikkojen ja työttömyyden määrän kehityksestä 2007–2016:

Kuvajournalisti Antti Yrjönen syytti VM:n grafiikkaa tarkoituksellisen harhaanjohtavaksi Twitterissä ja Facebookissa ja laati grafiikasta oman versionsa:

Yrjösen kriitiikki lähti leviämään vauhdilla ja lopulta myös valtamedia nosti sen esiin. MTV3 kirjoitti tapauksesta varsin lennokkalla otsikolla ”Työttömyysgrafiikka oli vinksallaan – kansan kritiikki oikaisi valtiovarainministeriön käppyrät”.

Pintapuolisella vilkaisulla VM:n grafiikka saattaa tosiaan antaa lukijalle sellaisen mielikuvan, että avoimia työpaikkoja olisi suunnilleen yhtä paljon kuin työttömiä työnhakijoita. Tästä on vedetty sellaisia johtopäätöksiä, että grafiikalla yritettäisiin väittää, että jokaiselle halukkalle kyllä löytyy töitä. Tämä ei kuitenkaan ole aiottu viesti.

Mistäkö tiedän? Grafiikka on minun tekemäni.

Valtiovarainministeriö otti minuun yhteyttä joulukuun loppupuolella aiheena muutaman työllisyystilanteen kehitystä kuvaavan grafiikan sommittelu ministeriön käyttöön. Nyt julkaistu viivakuvio on osa tätä kokonaisuutta.

Kuviossa vertaillaan työttömien työnhakijoiden määrän kehitystä vuosina 2007–2016 suhteessa avoimien työpaikkojen määrään. Kiinnostavaa ja olennaista kuviossa on, että 2013–2016 sekä avointen työpaikkojen että työttömien määrä on kasvanut, kun normaalisti nämä muuttujat kulkevat vastakkaisiin suuntiin. Tämä on huolestuttavaa ja kertoo mahdollisesti siitä, että työnhakijoiden osaaminen vastaa aiempaa huonommin työantajien tarpeisiin.

Sain melko vapaat kädet ehdottaa aineistolle soveltuvaa esitystapaa. Kokeilimme useita kuviotyyppejä, myös esim. Olli Kärkkäisen Twitterissä ehdottamaa, työllisyys- ja työttömyysasteen keskinäistä suhdetta taloustieteellisissä tutkimusjulkaisuissa perinteisesti kuvaamaan käytettyä ns. Beveridge-kuviota:

(Kuvion teksti on minun kirjoittamani alustava hahmotelma, ei VM:n tuottama tai hyväksymä.)

Vaikka grafiikan aiottu kohdeyleisö oli erityisesti virkamiehet, toimittajat ja muut työllisyyskysymyksiin ainakin jonkin verran perehtyneet ihmiset, Beveridge-kuvio on tottumattomalle hankalasti hahmotettava. Niinpä päädyimme lopulta käyttämään tutumpaa viivakuviota. Kahden asteikon käyttöön päädyttiin minun ehdotuksestani, ei asiakkaan pyynnöstä.

Kuvion tarkoituksena ei ole antaa ymmärtää, että avoimia työpaikkoja olisi tarjolla riittävästi kaikille halukkaille työnhakijoille, kuten Antti Yrjönen ja moni hänen laatimaansa ”vähemmän harhaanjohtavaa” versiota kommentoinut tuntuu ajattelevan. Minua ei pyydetty laatimaan kuviota, jonka tarkoitus olisi antaa tällainen vaikutelma, enkä olisi tällaiseen pyyntöön suostunutkaan, koska aineisto ei sellaista väitettä tue. Minun on vaikea myöskään uskoa, että kukaan olisi niin typerä, että kuvittelisi noin kömpelön vedätyksen menevän läpi.

Työmarkkinoiden toimintaa tunteville on selvää, että työnhakijoita on käytännössä aina moninkertainen määrä avoimiin työpaikkoihin nähden. Valittuun visuaaliseen ratkaisuun päädyttiin siksi, että kiinnostuksen kohteena oli se, miten tämä suhdeluku on kehittynyt. Grafiikassa käytetään kahta asteikkoa, jotta avointen työpaikkojen ja työttömien määrän vertailu ylipäänsä olisi visuaalisesti mahdollista. Yrjösen ehdottamassa ”vähemmän harhaanjohtavassa” versiossa tällainen vertailu ei onnistu. Siinä avointen työpaikkojen määrä näyttää pysyneen lähes ennallaan, vaikka todellisuudessa niiden määrä on vuoden 2009 aallonpohjasta kasvanut vuoteen 2016 mennessä noin 50 % ja lyhyemmälläkin jaksolla 2013–2016 lähes 20 %. Yrjösen ehdottama esitystapa hukkaa siis erittäin olennaista tietoa.

Lisäksi yhtenäistä asteikkoa käytettäessä jää huomaamatta, että vuodesta 2013 alkaen sekä työttömien että avointen työpaikkojen määrä on kasvanut, kun yleensä avointen työpaikkojen määrän kasvaessa työttömien määrä laskee ja päin vastoin. Tämä ongelma on myös esimerkiksi Juho Mikkosen ehdottamassa, muutoin sinänsä toimivassa ratkaisussa, jossa visualisoidaan vain työpaikkojen ja työnhakijoiden suhdeluvun kehitys. Tätäkin ehdotusta muistuttavaa versiota kokeilimme ennen nyt julkaistuun vaihtoehtoon päätymistä:

(Kuvion otsikointi on minun kirjoittamani ehdotus, ei VM:n tuottama tai hyväksymä.)

Kahden asteikon käyttö tilastokuviossa on aivan normaali käytäntö kun halutaan vertailla kahden eri muuttujan suhteellista kehitystä. (Ks. esim. Koponen, Hildén & Vapaasalo 2016, s. 219; Kuusela 2000, s. 34–36.) Kun asteikkoväli on valittu oikein ja käytetyt asteikot on merkitty selvästi, tässä ei lähtökohtaisesti ole mitään harhaanjohtavaa. Toki tehtyjä ratkaisuja pitää arvioida tapauskohtaisesti, eikä se, että kuvio on teknisesti oikein laadittu vielä takaa sitä, ettei se johda lukijaa harhaan.

On selvää, että grafiikka, joka saa sadat ihmiset sosiaalisessa mediassa epäilemään valtiovarainministeriötä tarkoituksellisesta harhaanjohtamisesta on epäonnistunut viestinnällisissä tavoitteissaan. Vastuu epäonnistumisesta on viime kädessä suunnittelijalla, tässä tapauksessa siis minulla. En osaa sanoa onko ongelma itse grafiikassa, siihen liittyvissä teksteissä, julkaisukontekstissa vai kenties jossain niiden yhdistelmässä. Tarkoituksena ei kuitenkaan ole ollut huijata ketään vaan mahdollistaa avointen työpaikkojen ja työttömien määrän kehityksen visuaalinen vertailu, joka ei ehdotetuissa ”paremmissa” vaihtoehdoissa onnistu. (Poikkeuksena tästä Beveridge-kuvio, joka sekin käyttää kahta eri asteikkoa.)

* * *

Itselleni yksi tarinan opetuksista on, että grafiikan ”freimauksella”, eli sillä, missä kontekstissa ja minkälaisen saatteen kanssa se on esitetty, on suuri merkitys sen tulkinnalle. Kun valtiovarainministeriölle laatimani kuvio lähti elämään omaa elämäänsä vihaisella saatetekstillä varustettuna, moni ihminen kansanedustajia myöten oli valmis uskomaan ministeriön pyrkineen tarkoituksella johtamaan kansalaisia harhaan.

Olen tietenkin jäävi arvioimaan, miten kuvioon olisi reagoitu ilman tätä ”lukuohjetta”, mutta uskon vakaasti, että läheskään yhtä moni ei olisi tullut samaan lopputulokseen jos olisi nähnyt grafiikan ilman tätä kriittistä saatetekstiä. Ja kääntäen: jos kuvion yhteydessä olisi jo alkajaisiksi ollut selkeämmin alleviivattuna se, mikä sen tekijän ja tilaajan mielestä on sen olennainen sanoma, grafiikan keskeinen viesti olisi kenties helpommin tulkittu samoin kuin itse sitä tulkitsimme.

Alan ammattilaisten keskuudessa yleinen ajatus ”älä selitä vaan anna datan puhua puolestaan” ei tämän kokemuksen perusteella ole hyvä periaate visualisointien suunnitteluun silloin, kun julkaisuympäristönä on draamaa ja vastakkainasettelua rakastava sosiaalinen media.

2017-02-082017-02-09

Puoluekannatus ja virhemarginaalit

Alma Media ja Yle julkistivat joulukuun lopulla peräkkäisinä päivinä puolueiden kuntavaalikannatusta koskevat mielipidemittauksensa. Tietoykkönen Oy:n Almalle toteuttaman kyselyn haastattelut tehtiin 9.–18.12., Taloustutkimus taas toteutti Ylen kyselyn 7.–28.12. Puolueiden kannatusprosentit kummassakin kyselyssä on lueteltu alla olevassa taulukossa.

	Yle	Alma Media
SDP	21,2 %	20,1 %
keskusta	20,3 %	19,5 %
kokoomus	17,4 %	17,1 %
vihreät	13,3 %	11,2 %
PS	9,4 %	11,6 %
vasemmistoliitto	7,6 %	8,8 %
RKP	4,9 %	4,5 %
KD	3,6 %	3,7 %
muut	2,3 %	3,5 %

Puolueiden kannatuksissa on havaittavissa pieniä eroja kyselyiden välillä. Huolimatta siitä, että mielipidemittausten aikavälit poikkeavat hieman toisistaan, Alman kyselyn aikaväli mahtuu kokonaan Ylen kyselyn ”sisään”. Voisi kuvitella, että liki samaan aikaan tehdyt mielipidemittaukset antaisivat melko tarkalleen samat kannatuslukemat kullekin puolueelle. Näin ei kuitenkaan ole. Mistä se johtuu?

Vastaus kysymykseen löytyy tietenkin mielipidemittausten virhemarginaalista. Mutta mitä virhemarginaali oikeastaan tarkoittaa ja miten sitä pitäisi tulkita?

Virhemarginaali ja luottamusväli

Otetaan lähempään tarkasteluun ne kaksi puoluetta, joiden kannatuslukemissa ero Ylen ja Alma Median kyselyiden välillä on suurin: poliittisen spektrin vastakkaisilta laidoilta löytyvät vihreät ja perussuomalaiset.

Ylen kyselyssä vihreät on neljänneksi suurin puolue selvällä erolla viidenneksi suurimpaan puolueeseen perussuomalaisiin. Alma Median kyselyssä puolueet taas ovat lähes tasoissa, mutta perussuomalaiset johtaa vihreitä täpärästi.

Molempien kyselyiden ilmoitettu virhemarginaali on ±2,4 prosenttiyksikköä. Tarkoittaako tämä, että esimerkiksi vihreiden todellinen kannatus voi Ylen kyselyn mukaan olla yhtä hyvin mikä hyvänsä luku välillä 10,9–15,7 % ja Alma Median mukaan välillä 8,8–13,6 %? Ei tarkoita.

Ensin lienee hyvä hieman avata, mikä on virhemarginaalin määritelmä. Tilastotieteellisin termein ilmaistuna mielipidemittauksen virhemarginaali on sama asia kuin 95 prosentin luottamusvälin (engl. confidence interval) puolikas. Tämä tarkoittaa siis sitä, että mikäli tutkimuksen otos on harhaton (tästä lisää artikkelin loppupuolella) puolueen todellinen kannatus on 95 prosentin todennäköisyydellä jollain kohtaa vaihteluväliä, joka ulottuu virhemarginaalin verran ilmoitetusta prosenttiluvusta kumpaankin suuntaan.

Kyselyn virhemarginaali lasketaan seuraavalla kaavalla:

Kaavassa p merkitsee puoluekannatuksen tai muun mittauksen kohteena olevan asian suhteellista osuutta desimaalilukuna (esim. vihreiden kannatus Ylen kyselyssä = 0,133) ja n kyselyyn vastanneiden määrää eli otoskokoa. 1,96 tulee kaavaan taas siitä, että 95 prosentin vaihteluvälin äärirajat ovat ±1,96 keskihajonnan etäisyydellä keskiarvosta.

Suoraan kaavasta ilmenee kaksi merkittävää virhemarginaalia koskevaa seikkaa:

Populaation eli perusjoukon, siis koko tutkimuksen kohteena olevan ryhmän koko ei vaikuta virhemarginaaliin. Voi tuntua epäintuitiiviselta, että puolueiden kannatuksen selvittämiseksi koko Suomessa (5,5 milj. as.) tai pelkästään vaikkapa Lappeenrannassa (73 000 as.) tarvitaan yhtä suuri otos saman virhemarginaalin saamiseksi. Mikäli otoskoko on hyvin lähellä populaation kokoa, näin ei itse asiassa olekaan, mutta useimmissa käytännön tilanteissa sama otos tuottaa mielipidemittauksessa yhtä suuren virhemarginaalin, oli tutkimuksen kohteena sitten 50 miljoonan tai 50 000:n kokoinen ihmisjoukko.
Erisuuruisilla kannatusluvuilla on eri virhemarginaalit. Tämä merkitsee sitä, että mielipidemittauksen ilmoitettu virhemarginaali pätee sellaisenaan vain yhteen vertailussa mukana olevista puolueista (yleensä suurimpaan niistä). Luvun virhemarginaali on sitä suurempi, mitä lähempänä 50 prosenttia se on. Niinpä pienempien puolueiden kohdalla todellinen marginaali on ilmoitettua pienempi.

Ylen kyselyyn vastasi 1 946 henkilöä, joista 57,6 % eli 1 121 kertoi puoluekantansa. Alma Mediaa varten haastatelluista 1 500 henkilöstä kantansa ilmaisi 70,8 % eli 1 062. Näillä luvuilla saadaan yllä esitettyä kaavaa käyttäen laskettua seuraavat virhemarginaalit kullekin puolueelle:

	Yle (n = 1 121)	Alma Media (n = 1 062)
SDP	±2,4 %	±2,4 %
keskusta	±2,4 %	±2,4 %
kokoomus	±2,2 %	±2,3 %
vihreät	±2,0 %	±1,9 %
PS	±1,7 %	±1,9 %
vasemmistoliitto	±1,6 %	±1,7 %
RKP	±1,3 %	±1,2 %
KD	±1,1 %	±1,1 %
muut	±0,9 %	±1,1 %

Todellinen arvo voi olla myös virhemarginaalin ulkopuolella

On huomionarvoista, että virhemarginaalin laskemiseen käytetty luottamusväli on 95, ei suinkaan 100 prosenttia. Todellinen arvo voi siis löytyä myös virhemarginaalin ulkopuoleltakin. Yksittäisen puolueen kannatuksen tapauksessa tämän todennäköisyys on vain 5 %, mutta koska yhdestä mielipidemittauksesta ilmenee 9 eri numeroa – 8 puolueen kannatusprosentit sekä ryhmä ”muut” – todennäköisyys sille, että ainakin yksi niistä on pielessä virhemarginaalia enemmän on 37 %. Todennäköisyys sille, että ainakin yksi joko Ylen tai Alma Median luvuista on virhemarginaalia kauempana todellisuudesta on jo 60 %, ja on lähestulkoon varmaa (todennäköisyys 99,6 %), että ainakin yksi Ylen vuoden aikana julkaisemista 12 mielipidemittauksista sisältää vähintään yhden kannatuslukeman, jonka todellinen arvo on virhemarginaalin ulkopuolella.

Yllä olevassa kuviossa on kuvattu se vaihteluväli jolle vihreiden ja perussuomalaisten todellinen kannatus Ylen ja Alma Median kannatusmittausten mukaan sijoittuu. Tavallinen, 95 prosentin luottamusväliin perustuva virhemarginaali on kuvattu täytettynä laatikkona, lisäksi katkoviivalla on osoitettu 99,7 prosentin luottamusväli (±3,0 keskihajontaa), jonka sisältä oikea arvo löytyy jo lähes varmasti.

Parikin prosenttiyksikköä on aika iso heitto kun puhutaan kymmenen prosentin tietämissä pyörivistä luvuista. Kuten ylempänä kuvatusta laskukaavasta ilmenee, virhemarginaalia olisi mahdollista pienentää otoskokoa kasvattamalla. Miksi näin ei tehdä mielipidemittausten tulosten tarkentamiseksi? Syy on yksinkertainen: raha. Virhemarginaalin puolittaminen vaatisi otoskoon nelinkertaistamista ja kustannukset kasvaisivat samassa suhteessa. Noin tuhannen vastaajan otos on vuosikymmenten saatossa päätetty tarkkuudeltaan median käyttöön riittäväksi kun otetaan huomioon myös mittausten teettämisen kustannus.

Lisäksi on syytä huomioida, että kaikki arvot virhemarginaalin sisällä eivät ole yhtä todennäköisiä. Virhemarginaalin olessa ±2,0 prosenttiyksikköä todellinen arvo on 68 prosentin todennäköisyydellä korkeintaan yhden prosenttiyksikön päässä keskiarvosta.

Alla oleva kuvio esittää vihreiden ja perussuomalaisten kannatuslukujen todennäköisyysjakauman. Todennäköisyys sille, että todellinen kannatusluku osuu kuvion keskellä olevalle tummennetulle alueelle on kussakin tapauksessa n. 4 % ja pienenee siitä etäännyttäessä. Kuvioelementtien kärjet kuvaavat 99,7 prosentin luottamusväliä.

Tämäkään kuvio ei silti vielä anna kovin hyvää vastausta siihen, mikä puolueiden todellinen kannatus on. Ylen yhden puolueen kannatukselle antama, kuviossa tummennettu todennäköisin arvo on aivan Alma Median todennäköisyysjakauman äärilaidalla ja päinvastoin.

Useamman mielipidemittauksen tulosten yhdistäminen

Usein tarkin tulos saadaan kun kahden tai useamman mielipidemittausten sisältämä tieto yhdistetään ja muodostetaan aineistosta uusi kuvio. Tähän on olemassa erilaisia tapoja. Maailmalla toimii useita mielipidemittausten tulosten yhdistelyyn erikoistuneita verkkosivustoja, joita kutsutaan mielipideaggregaattoreiksi (engl. poll aggregator). Ne ovat kehittäneet monimutkaisia, erilaisia paino- ja korjauskertoimia hyödyntäviä menetelmiään tarkoitukseen. Tunnetuin aggregaattoreista lienee FiveThirtyEight, jonka käyttämä malli pyrkii huomioimaan mm. joidenkin tutkimuksia tuottavien organisaatioiden taipumuksen systemaattisesti liioitella republikaanien tai demokraattien kannatusta. (Suomessa julkaistaan mielipidemittauksia niin harvakseltaan, ettei niiden aggregoinnista ole kehittynyt omaa journalismin lajiaan kuten esimerkiksi USA:ssa.)

Yllä olevassa kuviossa mielipidemittausten tulokset on yhdistetty kyselyiden vastaajamäärällä painotettuna, ilman muita kertoimia ja laskettu lopuksi uudet virhemarginaalit yhdistetyn vastaajamäärän mukaan. Laskelman perusteella vihreät olisi siis perussuomalaisia suositumpi, joskaan ei aivan yhtä pitkällä kaulalla kuin Ylen kyselyn alkuperäisten lukujen valossa. Tässä kaikkien puolueiden yhdistetyt luvut:

SDP	20,7 %
keskusta	19,9 %
kokoomus	17,3 %
vihreät	12,5 %
PS	10,3 %
vasemmistoliitto	8,2 %
RKP	4,7 %
KD	3,6 %
muut	2,9 %

Yhdistämiseen käyttämäni laskukaavat ovat hyvin yksinkertaisia:

jne.

Tällaisia yksinkertaisia kaavoja käyttäen laskelman tekeminen on helppoa, ja vaikka sillä onkin puutteensa verrattuna mielipideaggregaattorien käyttämiin hienostuneempiin malleihin, laskelman tulos kertoo kuitenkin puoluekannatuksesta enemmän kuin yksittäinen mielipidemittaus. Kun tämä ei ole tämän vaikeampaa, ihmettelen kyllä vähän, miksi media ei Suomessa vaikuta yhtään kiinnostuneelta tekemään puoluekannatuslaskelmia jotka perustuisivat useampaan kuin yhteen mielipidemittaukseen!

Virhemarginaali antaa liian ruusuisen kuvan mielipidemittauksen luotettavuudesta

Edellä esitetyissä laskelmissa ja mielipidemittauksen tutkimuksen virhemarginaalista puhuttaessa ylipäänsäkin lähdetään implisiittisesti siitä oletuksesta, että tutkimuksen otos on harhaton (engl. unbiased) tai ainakin, että otoksen mahdollinen vinouma on pystytty jollain tavalla oikaisemaan. Näin harvemmin todellisuudessa on.

Harhattomuus tarkoittaa sitä, että ainut tekijä joka vaikuttaa siihen, kenet populaatiosta poimitaan mielipidemittauksen tutkimusotokseen on sattuma. Jos nostamme erivärisiä palloja sisältävästä valtavasta pussista 1 121 palloa ja niistä 133 on vihreitä, voidaan virhemarginaalin laskentakaavaa käyttäen helposti selvittää, että kaikista pussissa olevista palloista on 95 prosentin todennäköisyydellä vihreitä 11,3–15,3 % (13,3 ± 2,0). Virhemarginaali kuvaa siis otantavirhettä (engl. sampling error), eli sitä, että satunnaisotantaan osuu harvoin aivan täsmälleen populaation sisäistä jakaumaa kuvaava joukko kohteita.

Mielipidemittauksiin vastaavat ihmiset eivät kuitenkaan ole yhtä helppo tutkimuskohde kuin pallot, vaan otantavirheen lisäksi tulosta vääristävät erilaiset otosharhat (engl. sampling bias):

Tutkimukseen ei ole käytännössä mahdollista poimia satunnaista joukkoa kaikista äänestysikäisistä suomalaisista, vaan otanta joudutaan tekemään esimerkiksi arpomalla haastateltavat numeropalveluun rekisteröityjen puhelinnumeroiden joukosta. Tutkimuksen otantakehikko (engl. sampling frame) on tällöin ne suomalaiset, joilla on julkinen puhelinnumero. Se ei ole täsmälleen sama joukko kuin kaikki äänestysikäiset suomalaiset, mistä johtuen kyselyyn sisältyy peittovirhe (coverage error).

Osalla suomalaisista on käytössään useampi kuin yksi puhelinnumero, joten heidän valikoitumisensa puhelinnumeroista arpomalla muodostettuun otokseen on keskimääräistä todennäköisempää. Jotkut taas voivat esimerkiksi vuorotyön vuoksi olla tutkimuksentekoaikana huonosti tavoitettavissa puhelimitse, jolloin heidän valikoitumisensa otokseen on vähemmän todennäköistä. Tällaisten syiden vuoksi puhelimitse tehtävään mielipidemittaukseen sisältyy myös valikoitumisharha (engl. selection bias).

Kaikki tutkimukseen valitut eivät syystä tai toisesta halua vastata kyselyyn. Varsinkin verkkokyselyissä vastauskato on yleensä iso ongelma ja sen aiheuttama vinouma (engl. non-response bias) potentiaalisesti suuri.

Otantavirheen ja erilaisten otosharhojen lisäksi tulosta vääristää vielä vastausharha (engl. response bias), joka on kattotermi erilaisille syille, joiden vuoksi osallistujien antamat vastaukset kyselyyn eivät aina täysin vastaa sitä, miten he todellisuudessa ajattelevat tai toimivat. Kaikki eivät esimerkiksi halua myöntää haastattelijalle kannattavansa rasistiseksi väitettyä puoluetta. Toisaalta haastateltava saattaa vastata eri kysymykseen kuin mikä häneltä on kysytty, esimerkiksi kuntavaalikannatusta koskevassa kyselyssä siihen, mitä puoluetta hän äänestäisi eduskuntavaaleissa.

Otantavirhe aiheuttaa mielipidemittauksen tuloksiin epätarkkuutta, jota voi pienentää otoskokoa kasvattamalla. Vinoutunut otos ja vastausharha sen sijaan vääristävät tuloksia usein tavoilla, joiden korjaaminen ei ole näin yksinkertaista. Jos esimerkiksi jonkin puolueen kannattajissa on enemmän vuorotöissä käyviä kuin muiden, tämän puolueen kannattajista valikoituu otokseen helposti todellista kannatusta pienempi osuus ja tämä vääristää puolueen kannatuslukuja.

Mielipidemittausten tekijät pyrkivät korjaamaan otosharhan aiheuttamaa virhettä esimerkiksi käyttämällä yksinkertaisen satunnaisotannan sijaan ositettua otantaa eli kiintiöpoimintaa (engl. stratified sampling), jolla huolehditaan siitä, että kaikkiin merkittäviin sosioekonomisiin ryhmiin (esim. miehet ja naiset, suomen- ja ruotsinkieliset) kuuluvien määrä otoksessa vastaa heidän osuuttaan väestössä. Tällaisista korjaavista toimista huolimatta mielipidemittausten tuloksiin sisältyy aina ilmoitetun virhemarginaalin lisäksi edellä mainittujen tekijöiden yhteenlasketun vaikutuksen aiheuttama metodologinen virhemarginaali. Termin kehittäjä Nate Silver arvioi yhdysvaltalaisissa mielipidemittauksissa sen olevan tavallisesti samaa suuruusluokkaa kuin tavallisen otantavirhemarginaalinkin. Tämä tarkoittaa, että karkeasti arvioiden yksittäisen mielipidemittauksen todellinen virhemarginaali voi olla kaksinkertainen ilmoitettuun nähden.

Tarinan opetus

Mielipidemittausten tuloksiin sisältyy runsaasti epävarmuutta. Todellinen virhemarginaali voi metodologiset tekijät huomioonottaen isoimpien puolueiden osalta olla kaksinkertainen tutkimuksen tekijän ilmoittamaan verrattuna ja osa todellisista kannatusluvuista voi löytyä jopa tämän laajemman virhemarginaalin ulkopuolelta. Niinpä reilusti virhemarginaalin sisään mahtuvat muutokset puolueiden kannatuksessa tai erot niiden keskinäisessä suosiossa ovat todennäköisemmin sattuman aiheuttamaa kuin merkki mistään todellisesta ilmiöstä, eikä niillä ole juurikaan uutisarvoa. Parempi käsitys puolueiden kannatuksesta saadaan, kun useampien mielipidemittausten tulokset yhdistetään.

Maarten Lambrechtsin mainio Rock ’n Poll -sivusto auttaa hahmottamaan, miten paljon otantavirhe vaikuttaa mielipidemittausten tuloksiin. Jokaisen politiikan toimittajan kannattaisi vilkaista sitä ennen kuin kirjoittaa uutisena, miten jonkin puolueen kannatus on muuttunut 0,4 prosenttiyksikköä edellisestä vertailusta.

2015-04-072015-04-08

Lisäkommentteja perussuomalaisten maahanmuuttoraportista käytyyn keskusteluun

Eilen julkaistua kirjoitustani perussuomalaisten ajatushautomon Suomen Perustan julkaisemasta, maahanmuuton vaikutuksia julkiseen talouteen käsittelevästä raportista Maahanmuutot ja Suomen julkinen talous on luettu ja jaettu kiitettävästi. Tätä kirjoittaessa sivulatauksia on kertynyt yli 12 000, millä määrällä juttu yltää blogimme historian luetuimmaksi. Maahanmuutto aiheena kiinnostaa mitä ilmeisimmin enemmän kuin vaikkapa Suomen karttakuvan kehitys. :)

Keskustelua kirjoituksesta on käyty mm. alkuperäisen artikkelin kommenttiosiossa. Raportin laatinut Samuli Salminenkin esitti joitakin kriittisiä huomautuksia tekemistäni tulkinnoista. Keskustelun sävy on ollut paikoin kipakka, mutta toistaiseksi jokseenkin asiallinen. Tänään Yle Uutiset teki myös nettijutun, jossa Salmiselta pyydettiin kommentteja esittämiini väitteisiin.

Käydyn keskustelun perusteella tulin siihen tulokseen, että on ehkä hyvä yrittää vielä tiivistää ja selkeyttää esittämiäni näkemyksiä, koska tuntuu että Salminenkaan ei aivan ole ymmärtänyt mihin kritiikkini kärki kohdistuu. Lisäksi kommenttiosiossa käydyn keskustelun myötä havaitsin erään minulta aiemmin huomaamatta jääneen seikan, joka vaikuttaa olennaisesti analyysiin.

Keskeneräisenä julkaistu selvitys on altis tulkintavirheille

Raportti on julkaistu ilmeisen keskeneräisenä. Vielä pari päivää ennen sen julkaisua perussuomalaisten Facebook-sivuilla julkaistiin video, jossa arveltiin, että torstaina joudutaan näyttämään eläinvideoita, koska selvitys ei valmistu ajallaan. Ilmeisesti paine saada jotain ulos johti siihen, että laajempi kokonaisuus pilkottiin kahteen osaan (raportin kakkososaa lupailtiin torstain tilaisuudessa julkaistavaksi tällä viikolla).

Ensimmäinenkään osa ei vaikuta aivan loppuun asti hiotulta. Esimerkiksi: ”Kaikki tutkimukseni merkittävimmät ja pääasialliset tulokset on on saatu 20–62-vuotiaista. 7–70-vuotiaiden vertailu oli sellainen kokeilu ja valmistelua elinkaarimallia varten”, sanoo Salminen Ylen haastattelussa. Hän on kuitenkin päättänyt otsikoida tätä kokeilua käsittelevän luvun ”Tulokset”, joten ei välttämättä ole pelkästään lukijan vika jos tämä erehtyy luulemaan, että nimenomaan tuo 7–70-vuotiaiden vertailu olisi tutkimuksen ydinainesta.

Jos tutkija itse olisi malttanut pitäytyä työikäisten vertailussa eikä ottaa 63–70-vuotiaita mukaan muutenkin kokonaisuudessa irralliselta tuntuvaan tutkimuksen lukuun 7, olisin ehkä minäkin lähestynyt aihetta toiselta kantilta. Nyt julkaistussa tekstissä on kaksi metodologisesti ja ikärajaukseltaan toisistaan poikkeavaa osiota, joiden keskinäinen suhde jää lukijalle epäselväksi ja altistaa väärintulkinnoille. (Tästä lisää tuonnempana.)

Alkuperäisessä kirjoituksessani oli kaksi pääpointtia:

Koko aikusväestöä tarkasteltaessa Suomessa syntyneiden vaikutus julkiseen talouteen on huonompi kuin maahanmuuttajien
Laskentatapa, joka tuottaa koko aikusväestön nettovaikutukseksi julkiseen talouteen –31,6 miljardia euroa kun todellisuudessa julkisen talouden alijäämä oli tarkasteluvuonna vain 2 miljardia on virheellinen

Käyn ne seuraavassa läpi Salmisen esittämän kritiikin valossa.

Koko aikuisväestöä tarkasteltaessa saadaan eri tuloksia kuin vain työikäisiä tarkasteltaessa

Salminen kritisoi tekemääni analyysiä Ylen haastattelussa näin: ”Koposen tekemässä vertailussa on myös se virhe, että hän on ottanut mukaan työikäisiä ja ei-työikäisiä.” Ei se ole mikään virhe, vaan toinen pääpointeistani.

Salmisen laskelma osoittaa – jos se on oikein tehty (ks. alempaa) – että työikäisen väestön keskuudessa maahanmuuttajien vaikutus julkiseen talouteen on huonompi kuin kantaväestön. Tätä en ole kiistänyt. Tämän tuloksen kiistämisen täytyisi perustua alkuperäisen datan uudelleenanalysoimiseen, ja kuten Salminen itse haastattelussa totetaa, hänellä on ollut käytössään ”rekisteriaineisto, jota ei ole ulkopuolisilla henkilöillä”. En ole ammatiltani tutkija, ja vaikka olisinkin, tällaisen analyysin tekemiseen menisi paljon enemmän aikaa kuin pääsiäsen pyhien luppohetket. Tulemme varmasti näkemään tulevaisuudessa erilaisia analyysejä työikäisten maahanmuuttajien aiheuttamista kustannuksista jotka joko vahvistavat tai kumoavat nyt julkaistun raportin tiedot, mutta minä jouduin olosuhteiden pakosta rajaamaan tarkasteluni sellaisiin kysymyksiin, joista on valmista dataa saatavilla.

Minun pointtini ei ollut, että työikäisten maahanmuuttajien tase olisi välttämättä jotain muuta kuin mitä Salminen sanoo, vaan nimenomaan että koko aikuisväestön tase on kantaväestöllä huonompi Salmisen omilla luvuilla laskettuna, koska kantaväestön ikärakenne on epäedullisempi kuin maahanmuuttajilla. Tämä selviää hyvin yksinkertaisella laskutoimituksella: otetaan Salmisen tutkimuksesta sivulta 82 löytyvästä taulukosta ulkomaalaisten ja suomalaisten nettovaikutukset henkeä kohden ja kerrotaan Tilastokeskuksen tietokannasta löytyvillä henkilömäärillä kotimaisten ja vieraiden kielten puhujien joukossa. Tämä luku voidaan vielä jakaa ihmisten kokonaismäärillä, jolloin saadaan keskimääräinen vaikutus henkeä kohden.

”Tämän henkilön kritiikin mukaan vertailuun voitaisiin ottaa vaikka mielivaltainen joukko 0–50-vuotiaat”, kritisoi Salminen Ylen haastattelussa. Eikä voitaisi. ”Kaikki aikuiset” ei ole mielivaltainen joukko.

Nähdäkseni käyttämääni laskentatapaa kohtaan voidaan esittää kaksi perusteltua vasta-argumenttia:

Tutkimuksen eläkeläisille lasketut luvut on laskettu 20–62-vuotiaille eläkeläisille, joten niitä ei voi käyttää yli 62-vuotiaiden eläkeläisten nettovaikutuksen arvioimiseen. Tämä on tietenkin periaatteessa ihan totta, mutta vanhempien eläkeläisryhmien nettovaikutus lienee pikemminkin 20–62-vuotiaita eläkeläisiä voimakkaammin negatiivinen pitempään kerrytetyn ja siten suuremman työeläkkeen, sekä suremman sairaanhoito- ja hoivapalvelujen tarpeen vuoksi. (20–62-vuotiaiden eläkeläisten ryhmässä on siis yli 62-vuotiaiden ryhmää enemmän ennenaikaiselle eläkkeelle jääneitä, joille ei ole kertynyt yhtä paljon työeläkettä kuin täyden työuran tehneille, ja vähemmän vanhustenhoidon palveluita tarvitsevia.) Jos käyttämäni laskentatapa siis vääristää tuloksia, se vääristää niitä luultavasti maahanmuuttajien kannalta epäedullisempaan suuntaan.
Lasten jättäminen pois laskuista vääristää lukuja, koska lapset aiheuttavat julkisen talouden näkökulmasta vain kuluja ja maahanmuuttajilla on enemmän lapsia kuin kantaväestöllä. Tämäkin on sinänsä totta, mutta vaikutus on pieni. Laskisin mielelläni luvut koko väestölle, lapset mukaan luettuna, mutta se ei ole mahdollista käytössäni olevalla datalla. Lasten vaikutus ei ole kovin merkittävä, sillä itse asiassa ero ulkomaalaisten ja suomalaisten lapsimäärässä ei ole kovin suuri. Kotimaisten kielten puhujista 16,4 % on 0–14-vuotiaita, vieraiden kielten puhujista 18,0 %; eroa siis vain 1,6 %-yksikköä. (Vertailun vuoksi voidaan todeta, että eläkeläisiä on kotimaisten kielten puhujista 25,0 % ja vieraskielisistä 4,3 %; ero 20,7 %-yks.) Valistuneena arvauksena uskallan myös heittää, että yhden eläkeläisen nettovaikutus selvästi suurempi kuin yhden lapsen.

Salmisen laskutapa tuottaa absurdeja tuloksia

Kun Salmisen työikäiselle väestölle laskemat luvut laajennetaan koskemaan koko aikuisväestöä, saadaan koko väestön nettovaikutukseksi julkiseen talouteen –31,6 miljardia euroa.

Salminen kritisoi käyttämääni laskentatapaa blogin kommenttiosiossa näin:

Koponen esittää tutkimuksen sivun 82 keskiarvot oikein tekstissään. Jotta keskiarvoista saadaan oikeat summaluvut, ne pitää kuitenkin kertoa oikeilla henkilölukumäärille. Sivun 82 taulukon oikeat henkilölukumäärät on esitetty tutkimuksen liitetaulukossa 1 sivulla 97. Kertomalla sivun 82 taulukon keskiarvot liitetaulukon 1 henkilölukumäärillä päästään oikeisiin summalukuihin. Sen sijaan kertomalla sivun 82 taulukon keskiarvot joillain mielivaltaisilla henkilölukumäärillä, päästään sen sijaan ”absurdeihin lukuihin”, kuten Koponen tekee tekstissään.

Sivulla 82 ovat siis henkeä kohden lasketut nettovaikutukset ja sivulla 97 työikäisten (20–62-vuotiaiden) määrät. Tehdään Salmisen mieliksi laskelma, jossa sivun 82 luvut kerrotaan todellakin sivun 97 luvuilla.

Ensin ulkomailla syntyneet:

	Opiskelijat	Työlliset	Työttömät	Eläkeläiset	Muut
henkeä	17 672	120 830	21 249	4 293	41 747
euroa/hlö	–13 465 €	+2 742 €	–17 594 €	–26 692 €	–8 734 €
yhteensä	–238,0 milj. €	+331,3 milj. €	–373,9 milj. €	–114,6 milj. €	–364,6 milj. €

Ulkomailla syntyneiden nettovaikutuksen loppusummaksi tulee –759,7 miljoonaa euroa, eli tuo paljon puhuttu 700 miljoonaa, joka näkyy kohteliaasti hieman pyöristetyn pienemmäksi perussuomalaisten puheissa.

Sitten suomalaiset. Jostain syystä suomalaisten kokonaismääriä eri ryhmissä ei sivun 97 taulukosta ilmene, vaan ainoastaan tutkimusotokseen sattuneiden määrät. Mutta eipä hätää, Tilastokeskuksen tietokannasta Väestö pääasiallisen toiminnan, sukupuolen, iän (1-v) ja vuoden mukaan 1987–2013 voidaan poimia kaikkien Suomessa asuvien määrät kohorteittain. Otetaan siis sieltä 20–62-vuotiaiden määrät vuonna 2011 ja vähennetään edellisestä taulukosta ilmenevät ulkomaalaisten määrät, niin saadaan suomalaisten luvut:

	Opiskelijat	Työlliset	Työttömät	Eläkeläiset	Muut
henkeä	142 333	2 128 977	224 453	217 068	124 378
euroa/hlö	–17 017 €	+5 337 €	–12 568 €	–24 254 €	–11 242 €
yhteensä	–2 422,1 milj. €	+1 1362,4 milj. €	–2 820,9 milj. €	–5 264,8 milj. €	–1 398,3 milj. €

Suomalaisten yhteenlasketuksi nettovaikutukseksi saadaan –543,7 miljoonaa euroa.

Tämä on aivan yhtä absurdi lopputulos kuin alkuperäisen laskelmani –31,6 miljardia euroa, koska se tarkoitaa että työikäisen väestön nettovaikutus on kokonaisuutena negatiivinen (yht. –1,3 miljardia). Koska julkisen talouden sektoritilinpidon loppusumma oli vuonna 2011 –2 miljardia, ja pelkästään perus- ja esiopetuksen menot, muista lapsien aiheuttamista kustannuksista puhumattakaan olivat 2,5 miljardia, tämä tarkoittaisi, että yli 62-vuotiaiden eläkeläisten pitäisi maksaa keskimäärin enemmän veroja kuin mitä he saavat eläkkeitä ja julkisia palveluja, jotta summat menisivät tasan. Näin ei todellakaan ole, kuten jokainen hyvin ymmärtää.

On siis ilmeistä, että Salmisen käyttämä laskentatapa on pielessä, koska se hukkaa merkittävän osan tuloista johonkin.

Laskelma ei huomioi työnantajan eläkemaksuja

Blogin kommenttiosiossa käydystä keskustelusta hoksasin lopulta yhden merkittävän tuloerän, joka on laskelmasta jätetty pois: työnantajan eläkemaksut. Koska tutkimuksen 7-luvussa (joka on siis nimetty ”Tulokset”) sanotaan ”olen ottanut julkisen talouden nettovaikutuksia laskiessani mukaan tulopuolelle myös työnantajien maksamat eläkevakuutusmaksut”, oletin tietysti yksinkertaisena ihmisenä, että nämä eläkemaksut olisi huomioitu myös edeltävissä luvuissa, joissa arvioidaan nettovaikutuksia yksilötasolla. Näin ei tarkemmalla lukemisella kuitenkaan ole. Sivulla 25 tosiaan sanotaan:

Tutkimuksen ensimmäisessä osassa (toteutuneet julkisen talouden tulot ja menot) ei ole ilman erillistä mainintaa mukana työnantajien maksamia pakollisia eläkevakuutusmaksuja, sillä ne ovat tutkimuksen määritelmien kannalta hankalia, sillä niitä ei peritä henkilöiltä (palkansaajilta) itseltään. Lisäksi tutkimuksen ensimmäisessä osassa keskityn lähinnä työikäisten, 20–62-vuotiaiden väestöjen tutkimiseen, jolloin mukana on suurin osa työeläkejärjestelmän henkilöiltä saamista tuloista, muttei toisaalta menopuolta maksettujen eläkkeiden muodossa.

Pahoittelen, etten ensimmäisellä lukemisella havainnut tätä rajausta vaan erheellisesti kuvittelin, että työnantajan eläke- ja sosiaaliturvamaksut olisi otettu mukaan julkisen sektorin tuloina. Työeläkeyhtiöt luetaan Suomessa budjettitalouden näkökulmasta julkiseen sektoriin ja nämä maksut ovat jo määritelmällisestikin osa verokiilaa, joten Salmisen tekemä ratkaisu on poikkeuksellinen, ja riittää jo yksinään selittämään tuon ulkomaalaisten 759,7 miljoonan euron negatiivisen nettovaikutuksen.

Paljonko työeläke- ja sosiaaliturvamaksujen jättäminen pois vääristää tuloksia?

VATT:n raportista Maahanmuutajien integroituminen Suomeen ilmenee (kuvio 6b), että maahanmuuttajien keskimääräiset palkka- ja yrittäjätulot aikuista (15–70 v.) kohden olivat suuruusluokkaa 13 500 €/v. Tämä tarkoittaa yhteensä noin 3 miljardin summaa, josta voidaan arvioida maksetun Salmisen laskelmista puuttuvia eläke- ja sosiaaliturvamaksuja suunnilleen… 750 miljoonaa euroa!

Korostettakoon vielä, että vaikka työnantajan sosiaaliturvamaksut huomioitaisiin laskelmassa, alkuperäisestä n. 30 miljardin heitosta väestön laskennallisen nettovaikutuksen ja toteutuneen julkisen sektorin alijäämän välillä ne selittäisivät vain n. 17 miljardia. Vielä puuttuu 13 miljardia. Raportissa käytetty laskentatapa tuottaisi siis edelleen aivan liian synkkiä lukuja, vaikka sitä korjattaisiin huomioimaan kaikki verokiilan osat julkisen sektorin tuloina, kuten tietenkin pitäisi.

Kun kerran yhteisesti kulutetut hyödykkeetkin on pystytty jyvittämään eri väestöryhmille, niin eiköhän myös sellaiset tulotkin voida ottaa mukaan laskelmaan, joita ei pystytä suoraan kohdistamaan. Luontevaa olisi vaikka vähentää nämä tulot yhteisesti kulutetuista menoista ennen menojen jyvitystä.

tl;dr

Suomalaissyntyisten vaikutus julkiseen talouteen on henkeä kohden huonompi kuin maahanmuuttajien johtuen erilaisesta väestörakenteesta.

Jos rajataan tarkastelu vain työikäiseen väestöön, saattaa hyvin olla juuri niin kuin Salminen sanoo, eli että työikäisten maahanmuuttajien nettovaikutus on työikäistä kantaväestöä huonompi ja joidenkin maahanmuuttajryhmien erittäinkin huono. Tämä on itsessään kiinnostava tulos, jolla on myös poliittisia implikaatioita.

Salmisen laskelmasta puuttuu kuitenkin merkittävä tulopuolen menoeriä, mm. työnantajan eläkevakuutusmaksut, jonka vuoksi esimerkiksi Matti Putkosen useaan kertaan toistama väite maahanmuuttajien aiheuttamista 700 miljoonan vuosittaisista kuluista ei pidä paikkaansa.

2015-03-232015-03-24

Cartograms are hard

This cartogram, purporting to show the indebtedness of Eurozone countries, has been making the rounds on the internet. To me it mostly shows that making cartograms that can actually give the reader any relevent insights is hard, and should be left to specialists.

A cartogram is a map in which the size of the countries (or municipalities, states etc.) do not correspond to their geographical dimensions but instead are scaled according to a different variable, e.g. population. (Stricly speaking, a cartogram is not a map, but in layman’s terms it is.) Truly great cartograms exist, but in my experience, 99 per cent of the time cartograms muddle the data and don’t help gain insights.

This particular cartogram comes from a Deutsche Bank research report (p. 51). The report gives no source, nor any numbers in tabular form, nor even an explanation what the data being shown is. (“Sovereign debt” might mean a variety of things.) The different colors don’t seem to signify anything.

The worst feature of the map is that only Eurozone countries have been rescaled according to debt, whereas non-Eurozone countries (nearly half of the countries shown) retain their original size (but not shape, except for UK). Unless the reader knows all the 19 Eurozone countries by heart (and recognizes their distorted, unlabeled shapes on the map), she can only guess which countries’ sizes show relevant information and which do not.

Making the assumption that the data shown in the original cartogram is public sector liabilities minus assets, per capita (excluding social security funds for better comparability across countries) I downloaded the latest (Q1/2014) available data from Eurostat and created this simple horizontal bar chart.

Edit 23.3.: It would seem that this assumption is wrong. The data shown on the cartogram can’t be liabilities minus assets, whether or not social security funds are excluded, since the Eurostat numbers for those don’t match the relative sizes of the countries on the map. (For example, Belgium should make the top 2 in both cases, but is not in the top 10 of largest countries on the map.) Either the numbers are based on a different definition of sovereign debt, or are plain wrong. I’m guessing the latter, since I can’t imagine a definition of debt which would place Belgium very far from the top among European countries.

(I also collected the data into a single csv file for anyone wishing to create their own visualizations or analyses using the same data.)

Compare the bar chart and cartogram and decide for yourself which gives you more insights about the underlying data. I think the answer is pretty obvious.

2014-03-302014-03-30

Suomen karttakuvan kehitys

Helsingin Sanomat on julkaissut hauskan artikkelin Suomen ilmaantumisesta maailmankartalle (ilmaisun kirjaimellisessa merkityksessä). Itse karttakuvat saisivat kyllä olla vielä isompia!

Olen itse työstänyt samasta aiheesta tekstiä ensi vuoden alussa julkaistavaan Informaatiomuotoilu-kirjaamme, mutta näillä näkymin sitä ei tulla ainakaan tässä laajuudessa käyttämään, joten ajattelin että tämä voisi olla hyvä tilaisuus julkaista teksti täällä blogissa.

Hesarin artikkelissa mainituista karttaprojektioiden eroista minulla on valmiina myös varsin kattava teksti, mutta sitä saatte odottaa kirjan julkaisuun asti. :)

* * *

Pohjoismaita kuvaava Tabula Rogerianan osa (saksalainen faksimiili 1800-luvulta). Pohjoinen on kartassa alhaalla.

Suomi hiipi maailmankartalle vähitellen. Ylipäänsä Pohjois-Euroopan karttakuvan kehitys on ollut hyvin hidas prosessi. Karttoja tehtiin läntisessä kulttuuripiirissä lähinnä Välimeren maissa ja tehdyt kartat kuvasivat pääasiassa Euroopan eteläisempiä osia. Helsingin yliopiston pohjoismaiden historian dosentti Mikko Huhtamies on todennut, että vielä Kalmarin unionin aikaan (1397–1523) hallitsijoilla ei ollut minkäänlaista käsitystä siitä, miltä heidän valtakuntansa olisi kartalla näyttänyt. Suomen ja Venäjän välinen rajakin oli vuosisatojen ajan vain luettelo rajamerkeistä erämaassa.

Jos edes Skandinavia kartalle mahtui – yleensä lisälehtenä, tabula nova, eteläisempiä alueita kuvaavaan varsinaiseen karttaan – se kuvattiin yleensä saarena. Joissain kartoissa niemimaa yhdistyy mantereeseen kapean maakaistaleen välityksellä, mutta tätä ei voine vielä pitää varsinaisesti Suomen kuvauksena. Suomalaisia paikannimiä ei näissä varhaisimmissa kartoissa vielä esiinny.

Tabula Rogeriana (1154) nimeää kaksi suomalaista paikannimeä: ”Abu(r)a” (Turku*) ja ”Tabast” (Häme). Tanskalaisen Claudius Clavuksen 1427 laatima kuuluisa Pohjoismaiden kartta on kadonnut, mutta siitä on säilynyt myöhempiä painettuja versioita, joista vanhin on vuodelta 1482. Tässä vielä varsin epätarkassa kartassa esiintyy paikannimi ”Findlandi”, jonka on tulkittu tarkoittavan Varsinais-Suomea. Fra Mauron maailmankartassa mainitaan ”Fillandia”-nimisen maan lisäksi ainakin ”Vibògo” (Viipuri) ja ”Abo” (Turku).

Jacob Zieglerin kartassa vuodelta 1532 Suomen maantieteellinen sijainti osana Pohjoismaita alkaa hahmottua jo oikein, vaikka rantaviivan muoto onkin vielä aika kaukana todellisuudesta. Suomalaisia paikannimiä mainitaan jo useita, mm. ”Chimene” (Kemi), ”Strobothnia” (Pohjanmaa), ”Peunthe” (Päijänne), ”Hango” (Hanko), ”Custa” (Kustavi) ja ”Rasburghum” (Raasepori).

Varsinainen läpimurtoteos on kuitenkin ruotsalaissyntyisen Olaus Magnuksen Roomassa 1539 julkaisema Carta marina, joka kuvaa koko Pohjoismaat, mukaan lukien Suomen, merkittävästi tarkemmin ja yksityiskohtaisemmin kuin kukaan ennen tätä. Suomalaisia paikannimiä mainitaan toistasataa, tosin maan sisäosat on kuvattu vielä puutteellisesti. Maantieteellisen tiedon lisäksi kartassa on kuvattu mm. kansojen elintapoja, sodankäyntimenetelmiä ja historiallisia tapahtumia, kuten Viipurin pamaus.

Myös Orteliuksen (1570), Waghenaerin (1588) ja Mercatorin (1595) kartastoissa Suomi kuvataan jo melko kattavasti, mutta vasta Ruotsin maanmittauslaitoksen perustajan Anders Buren tarkkoihin mittauksiin ja laajaan tietojenkeruuseen perustunut Orbis arctoi nova et accurata delineatio vuodelta 1626 antoi Suomen maantieteestä ratkaisevasti Carta Marinaa paremman kokonaiskuvan. Buren kartta pysyikin toistasataa vuotta perusteoksena, johon muut Pohjolan karttoja laatineet kartografit työnsä pohjasivat.

Suomen aluetta kuvaavat kartat laadittiin pitkään Tukholmasta tai vieläkin kauempaa käsin. Aidosti kotimaisen kartografian varhaisvaiheita edustavat 1640-luvulta alkaen kylittäin laaditut maakirjakartat. Niistä kehittivät vähitellen pitäjänkartat, jotka muodostivat 1940-luvulle asti suomalaisen kartta-aineiston rungon ja joita varten tehdylle pohjatyölle muut kartat lähes aina rakentuivat.

Merkittävä piristysruiske suomalaiselle maanmittaustoiminnalle oli Ranskan tiedeakatemian retkikunnan 1736–37 Tornionjokilaaksossa tekemä, Newtonin fysiikan teorioiden testaamiseen liittynyt laaja mittaushanke, joka toi maahan uusia menetelmiä ja välineitä.

1740-luvulla perustettiin isojaoksi kutsutun maatalousmaan uudelleenjaon toteuttamista varten maanmittauskomissio. Sen merkittävimmistä hankkeista mainittakoon Eric af Wetterstedtin johdolla laadittu ja vuorineuvos S. G. Hermelinin kustantama kattava Suomen kartasto (1799) joka oli yleisesti käytössä 1800-luvun puoliväliin saakka.

Venäjän vallan aika toi pitäjänkarttojen rinnalle uuden sotilaskäyttöön tarkoitetun karttatyypin jota kutsuttiin topografikartoiksi. Nämä kaksi karttatyyppiä yhdistettiin 1947 alkaen peruskartoiksi, jotka edelleen ovat kattavin Suomea kuvaava kartta-aineisto. Peruskarttojen lisäksi Maanmittauslaitos tuottaa mm. maastokarttoja.

Kuntien tuottamat kantakartat ovat vielä maasto- ja peruskarttojakin tarkempia karttoja, joita käytettään mm. kaavoituksen ja rakennustöiden suunnittelun pohjana.

Maanmittauslaitos julkaisi toukokuussa 2012 suurimman osan sähköisistä kartta-aineistoistaan vapaasti ladattavaksi ja käytettäväksi.

*) Turun kaupunki tosin perustettiin nykykäsityksen mukaan vasta 1249, joten voi olla että tällä on tarkoitettu jotain muuta paikkaa. Jonkinlainen markkinapaikka nykyisen Turun seudulla on toki hyvinkin voinut olla jo 1100-luvun puolivälin tienoilla kun tiedot karttaa varten on kerätty. Joka tapauksessa Al-Idrisin kartta oli alkujaan arabiankielinen ja Pohjolan eksoottiset paikannimet ovat voineet vääristyä niitä latinalaiseen kirjaimistoon muutettaessa. Karttoja on myös täydennetty uudelleenpiirtämisten yhteydessä, joten kyseessä voi olla myös myöhempi lisäys jota ei alkuperäisessä kartassa ole ollut.

2013-07-032013-07-03

Malofiej – infografiikan Pulitzerit

Artikkeli on julkaistu lyhennettynä Grafia-lehden numerossa 2/2013.

Infografiikan alan ykköstapahtuma on loistava tilaisuus kuulla huippuluokan puhujia ja verkostoitua, mutta itse palkintogaala kaipaisi lisää glamouria.

Espanjan Pamplonassa jaettiin maaliskuun puolivälissä Malofiej-infografiikkakilpailun palkinnot. Koska kilpailun tuomaristo koostuu monipuolisesti alan huipputekijöistä, on palkintojenjaon yhteydessä keksitty ryhtyä järjestämään myös seminaaria, jonka puhujina toimivat juryn jäsenet. Lopputuloksena on poikkeuksellisen kovatasoinen seminaariohjelma ja infografiikan tekijöiden kansainväliset kokoontumisajot vailla vertaa.

Ensi kertaa vuonna 1993 järjestetty tapahtuma – oman määritelmänsä mukaan ”infografiikan Pulitzer-palkinnot” – on vuosien varrella kasvanut ja monipuolistunut, mutta edelleen varsin kompaktin kokoinen. Seminaarin osallistujaluettelo mahtuu siististi muutamalle A4-arkille. Painotus on edelleen journalistisessa infografiikassa eikä Pamplonassa juuri nähdä esimerkiksi tieteellisiä visualisointeja. (Niille on omat tapahtumansa kuten USA:ssa vuosittain järjestettävä IEEE VIS.)

Malofiej-seminaari järjestettiin Navarran yliopiston viestinnän laitoksen tiloissa Pamplonassa.

Seminaaripuheenvuorot tarjosivat mahdollisuuden päästä näkemään luonnosvaiheesta alkaen kuinka maailmanluokan visualisoinnit syntyvät. Eräänä yhdistävänä teemana olikin juuri huolelliseen luonnostelun merkitys niin isoissa kuin pienissäkin medioissa. Argentiinalaisen La Voz del Interior -lehden piskuinen kolmen(!) hengen grafiikkadeski tuottaa jatkuvalla syötöllä maailmanluokan tietokuvituksia, joiden pohjana on huolellista luonnostelutyötä. Juan Colombato kertoi tutkijoita ja muita asiantuntijoita haastatellessaan pyytävänsä heitä luonnostelemaan itse miten aihe heistä kannattaisi esittää.

National Geographicilla yksittäistä grafiikkaa saatetaan työstää luonnoksina puolikin vuotta. Projekteja venyttää ennen kaikkea faktojen tarkistuksen perusteellisuus. ”Moni ajattelee että National Geographicin kuvitukset ovat vain ’taiteilijan näkemyksiä’. Eivät ne ole. Pienimmätkin yksityiskohdat on tarkistettu”, kertoi Amanda Hobbs ja näytti kuvitusversioita jotka oli asiantuntijoiden kommenttien perusteella piirretty uusiksi moneen kertaan pientenkin yksityiskohtien oikeellisuuden varmistamiseksi.

Omaa elämäänsä Feltron report -”vuosikertomuksen” muotoon dokumentoiva Nicholas Felton esitteli tiedonkeruun ja sen esityskuntoon työstämisen vaiheita. Feltonin esityksessä kiinnostavaa oli uudenlainen työskentelytapa jossa lyijykynän sijaan luonnostelun välineenä on ohjelmakoodi. Muuttamalla parametreja ja kokeilemalla eri tapoja käsitellä dataa syntyy luonnosmaisia versioita joista sitten lopuksi jokin valitaan viimeisteltäväksi julkaisukuntoon.

Myös liikkuvan grafiikan tuotanto vaatii lukuisia luonnostelukierroksia storyboard-vaiheesta ensimmäisiin animointikokeiluihin. The New York Timesin Graham Roberts näytti hauskoja making of -videoita lehden nettisivuille mm. liikkeenkaappaustekniikalla toteutetuista 3d-animaatioista. Videografiikan erityisenä haasteena on, että tarjolla olevat työkalut on yleensä suunniteltu fiktioelokuvan ja pelien tarpeisiin ja niiden uutisviestimen tarpeisiin soveltaminen vaatii välillä luovaa hakkerointia.

Kilpailun parhaana verkkotyönä palkittiin The New York Timesin aitajuoksija Lolo Jonesin juoksutekniikkaa esittelevä video. (ruutukaappaus)

Viimeisen seminaaripäivän lopuksi tapahtunut palkintojen julkistaminen oli lähestulkoon antikliimaksi intensiivisen ja huippukiinnostavan seminaariohjelman jälkeen. Jury luetteli kultamitalistit lyhyin perusteluin ja loput palkitut saimme lukea jaetusta tulosteesta. Ensi kertaa kilpailun historiassa Suomeenkin saatiin mitali kun Suomen Kuvalehden Hannu Kyyriäisen Kutistunut Palestiina voitti pronssia.

Palkintojen saajien julkistaminen ei tuntunut herättävän yleisössä juuri minkäänlaisia reaktioita. Keskustelin tästä myöhemmin pöytäseurueeni kanssa gaalaillallisella, jossa kultamitalien ja erikoispalkintojen voittajat saivat kunniakirjansa. Viime vuonna paikalla olleiden mukaan palkintojenjako oli silloin kuumentanut tunteet lähes tappeluksi asti. Ehkäpä juuri konfliktien välttämiseksi kultamitaleita olikin sitten jaettu tänä vuonna ennätysmäärä eikä yleisökään lähtenyt julkisesti kommentoimaan juryn valintoja.

Palkittujen töiden joukossa korostuvat urheiluaiheiset grafiikat, jotka keräsivät peräti kolmasosan kaikista kultamitaleista. Eikä ihme: esimerkiksi kisassa hyvin pärjännyt The New York Timesin olympialajeja esittelevä How to win -sarja saa vähemmänkin urheilusta kiinnostuneen innostumaan.

Malofiej-21-award-ceremony-©-Juuso-Koponen — Googlen Fernanda Viégasilla ja freelancerina toimivalla Frédérik Ruysillä oli hauskaa kilpailun palkintojenjakoa odotellessa. Vasemmalla kilpailun järjestäjän, SND-E:n puheenjohtaja Javier Errea.

Tapahtuman antia pohtiessa nousee mieleen väistämättä vertailu suomalaisiin vastaaviin kilpailuihin. Omaa infografiikkakilpailuahan meillä ei tietysti ole eikä esimerkiksi Vuoden Huipuissa ole omaa sarjaa tiedon visualisoinnille. Vuoden parhaat sivut -kilpailussa infografiikkaa arvioidaan lehtien ulkonäkökilpailun puitteissa, Apps4Finlandin visualisointisarjan arviointikriteerit taas tuntuvat painottavan teknisiä ja datalähtöisiä kysymyksiä eivätkä niinkään kuvallista viestintää. Ehkä jonkun näistä kilpailuista olisi aika toteuttaa kunnollinen infografiikkasarja.

Saatiin kotimaisiin kisoihin tulevaisuudessa omaa sarjaa infografiikalle tahi ei, idea tuomariston osaamista hyödyntävästä seminaarista on mainio ja pitäisi mielestäni ehdottomasti kopioida meillekin. Malofiej voisi vuorostaan ottaa oppia esimerkiksi Vuoden Huipuista siinä miten itse palkintojenjakoon saadaan draamaa ja glamouria.

Teksti ja kuvat: Juuso Koponen

* * *

Malofiej-kilpailun palkitut

Pääpalkinto/verkko
The New York Times (USA)
Lolo Jones, cleared for takeoff
Verkkoon tehtyjen töiden parhaana palkittiin olympialajeja esittelevien verkkojuttujen How to win -sarjaan kuuluva aitajuoksua käsittelevä video.

Pääpalkinto/printti
National Geographic Magazine (USA)
An army for afterlife
Painettujen julkaisujen pääpalkinnon voitti 500-luvulta peräisin olevasta kiinalaisesta terrakotta-armeijasta kertova feature-kokonaisuus.

Paras kartta/verkko
ProPublica (USA)
Stateface-fontti
Eniten keskustelua gaalaillallisella herätti parhaan verkkokartan palkinnon myöntäminen fontille(!). Vapaasti ladattava Stateface sisältää kirjainten sijaan kaikkien Yhdysvaltain osavaltioiden ja itsehallintoalueiden ääriviivat.

Paras kartta/printti
The New York Times (USA)
Counties blue and red move to the right (verkkoversio)
Printtikarttojen pääpalkinnon voittaja analysoi piirikunnittain Yhdysvaltain presidentinvaalien tulosta uudenlaisella tavalla.

Kultamitalien voittajat:

The New York Times (USA) •••••••
National Geographic Magazine (USA) ••••
El Correo (Espanja) ••
In Graphics (Saksa) ••
South China Morning Post (Kiina) •
ElMundo.es (Espanja) •
El Telégrafo (Ecuador) •
Golden Section Graphics (Saksa) •
Prensa Libre (Guatemala) •
O Estado de S. Paulo (Brasilia): •

Yhteensä 21 kpl.
Hopeamitaleja jaettiin 52 kpl ja pronssimitaleja 74 kpl. Yhteensä kilpailuun osallistui 1 191 työtä 154 eri julkaisulta 28 eri maasta.

Täydellinen luettelo palkituista töistä

* * *

Kilpailun tuomaristo

Puheenjohtaja: Jaime Serra, La Vanguardia (Espanja) @ja_serra
Wilson Andrews, The Washington Post (USA) @wilsonandrews
Jen Christiansen, Scientific American (USA) @ChristiansenJen
Juan Colombato, La Voz del Interior (Argentiina) @jcolombato
Nicholas Felton, Facebook (USA) @feltron
Amanda Hobbs, freelancer/National Geographic (USA) @AmandaHobbs427
Artem Koleganov, Infografika (Venäjä) @infographer_ru
Fabricio Miranda, Superinteressante (Brasilia) @FabricioMiranda
Stefanie Posavec, freelancer (USA/Iso-Britannia) @stefpos
Graham Roberts, The New York Times (USA) @Grahaphics
Frédérik Ruys, Vizualism (Alankomaat) @fruys
Jan Willem Tulp, freelancer (Alankomaat) @JanWillemTulp
Fernanda Viégas, Google (Brasilia/USA) @viegasf

2013-05-232013-05-23

Informaatiomuotoilun sanasto, englanti–suomi

Olemme koostaneet tulevaa Informaatiomuotoilu-kirjaa varten sanastoa keskeisistä informaatiomuotoilun käsitteistä. Ongelmana on ollut, että suomenkielinen sanasto on ollut puutteellista, kirjavaa ja hajallaan useissa eri paikoissa. Olemmekin kirjaamme varten keränneet kirjallisuudesta ja sanakirjoista käännöksiä englanninkieliselle käsitteistölle ja tehneet lisäksi omaa, kohtuullisen mittavaakin sanaston käännöstyötä. Tämä työ on edelleen kesken, mutta olemme päättäneet yleisön pyynnöstä (sekä hyödyntääksemme pientä joukkoistamista) julkaista tämänhetkisen version sivustollamme: Informaatiomuotoilun sanasto, englanti–suomi.

Korostan vielä sanaston keskeneräisyyttä. Esimerkiksi linkit käsitteiden määritelmiin pyritään myöhemmin lisäämään mahdollisimman monen sanan kohdalle. Joka tapauksessa otamme jo nyt mielellämme vastaan palautetta sekä täydennys- ja korjausehdotuksia. Niitä voi lähettää meille suoraan sähköpostitse (etunimi@informaatiomuotoilu.fi), lisätä kommentteina tämän viestin perään tai sitten kommentoida suoraan sanastodokumenttia Google Drivessä. Kaikenlainen palaute on tervetullutta! Sanasto kattaa tällä hetkellä tilastografiikan käsitteistön kohtuullisen hyvin, mutta kartografian ja esimerkiksi käyttöliittymäsuunnittelun osalta puutteita on vielä paljon ja niiden osalta apu on tervetullutta. Lisäksi palautetta nykyisestä sisällöstä otamme vastaan mieluusti. Ovatko nyt esitetyt käännökset mielekkäitä? Onko jokin ristiriidassa vakiintuneen terminologian kanssa? Onko yksi iso aakkosellinen luettelo järkevä toteutustapa vai pitäisikö lista jakaa esimerkiksi erillisiin tilastografiikan, kartografian jne. sanastoihin? Puuttuuko lähteistämme joitain merkittäviä teoksia?

2013-05-132013-05-13

Vierailijabloggaus HRI.fi:ssä

Kirjoitin vierailijabloggauksen Helsinki Region Infosharen sivustolle otsikolla ”Visualisointi on työkalu, ei itsetarkoitus”. Syynissä mm. keskustelua herättänyt Hesarin lobbarigrafiikka ja visualisoinnin työprosessit.