Oikean Median puoluekannatusanalyysi on huonosti tehtyä ja laiskaa datajournalismia

Arvokonservatiiviseksi vaihtoehtomediaksi itsensä määrittelevä Oikea Media julkaisi lauantaina Marko Hamilon kirjoittaman puolueiden kannatusta ja vieraskielisten osuutta Helsingin eri alueilla vertailevan datajournalismijutun otsikolla ”Maahanmuuton kannattajat asuvat kaukana monikulttuurisesta arjesta”.

Analyysin keskeinen sisältö tiivistetään Hamilon jutussa näin:

– – Sdp ja Perussuomalaiset saavat paljon ääniä monikulttuurisilta alueilta, sen sijaan Kokoomuksen ja Vihreiden kannatus on heikompaa siellä missä monikulttuurisuus on voimakasta. Vasemmistoliiton kannatus ei riipu äänestysalueen monikulttuurisuuden asteesta.

On ilahduttavaa, että konservatiivitkin yrittävät vaihteeksi käydä yhteiskunnallista keskustelua asia-argumentein. Valitettavasti artikkeli perustuu virheellisesti käsiteltyyn dataan eikä edes tämä virheellinen aineisto lähemmin tarkasteltuna täysin tue Hamilon sanallisesti esittämää tulkintaa.

Käytetty aineisto soveltuu tarkoitukseen huonosti ja käytetty menetelmä on kuvattu puutteellisesti

Puolueiden kannatuksen ja ”monikulttuurisuuden”, joka Hamilon artikkelissa määritellään vieraiden kielten puhujien osuudeksi, vertailu on lähtökohtaisesti hankalaa, sillä näistä teemoista saatavilla olevat tilastot käyttävät erilaista aluejakoa. Äänestysalueita ei käytetä väestötilastojen aluejakona, joten vieraiden kielten puhujien osuus on saatavilla vain niiden kanssa yhteensopimattomalla aluejaolla, esimerkiksi kaupunginosittain (Helsingin seudun aluesarjat -sivustolta) tai postinumeroalueittain (Tilastokeskuksen PAAVO-tietokannasta). Hamilo ilmoittaa käyttäneensä lähteenä aluesarjojen aiheistoa.

Alla oleva Helsingin kartta kuvaa sitä, miksi tämä on ongelma. Äänestysalueiden rajat eivät vastaa yksi yhteen kaupunginosien (tai postinumeroalueiden) rajoja. Kartassa mustalla näkyvät ne rajat, jotka ovat sekä kaupunginosien että äänestysalueiden rajoja, vihreällä vuoden 2012 kuntavaalien äänestysalueiden rajat ja oranssilla kaupunginosien rajat. Lisäksi vihreänharmaalla on merkitty ne äänestysalueiden rajat, jotka muuttuivat vuonna 2013.

(Kuva aukeaa klikkaamalla suuremmaksi.)

Sellaisissa tapauksissa, joissa kaikki kaupunginosaan kuuluvat äänestysalueet mahtuvat kokonaan sen rajojen sisäpuolelle ongelmaa ei synny, koska tällöin tulokset voidaan laskea yhteen ja muodostaa näin kaupunginosakohtaiset luvut. Ongelmia tuottavat sellaiset äänestysalueet, jotka ulottuvat kahden tai useamman kaupunginosan puolelle.

Yllä olevalla kartalla oranssina näkyvät kaupunginosien rajat ovat sellaisia kohtia, joissa äänestysalue ulottuu useamman kaupunginosan alueelle. Esimerkiksi äänestysalue 003A Kaartinkaupunki pitää sisällään Kaartinkaupungin kaupunginosan lisäksi myös Kaivopuiston sekä ison siivun Ullanlinnasta.

Hamilo ei selitä miten hän on ratkaissut aluejakojen yhteensovittamiseen liittyvät ongelmat. Asian selvittämistä hankaloittaa, että hän käyttää kaupunginosista pääosin muita kuin niiden virallisia nimiä. Joissain kohdin tämä on sisällöllisesti perusteltua: harva esimerkiksi tietää, että Itäkeskus ja Myllypuro kuuluvat molemmat virallisesti Vartiokylä-nimiseen kaupunginosaan (numero 45), joten nimitys Itäkeskus–Myllypuro on virallista nimeä havainnollisempi. Monet Hamilon valitsemat nimitykset ovat kuitenkin harhaanjohtavia: hän kutsuu esimerkiksi Länsisataman kaupunginosaa (20) Ruoholahdeksi, vaikka kaupunginosaan kuuluvat Ruoholahden lisäksi myös Jätkäsaari, Lapinlahti ja Hernesaari.

Hamilo vaikuttaa myös jättäneen viisi kaupunginosaa kokonaan pois analyysistään perustelematta ratkaisua mitenkään. Puuttuvat kaupunginosat ovat Kaivopuisto (09), Laakso (18), Vanhakaupunki (27), Viikki (36) ja Vartiosaari (48). Varsinkin n. 15 000 asukkaan Viikin jättäminen pois on erikoinen veto, joka kaipaisi jonkin perustelun tuekseen. Uskoisin tämän liittyvän jollain tavalla äänestysalueiden ja kaupunginosien yhteensovitusongelmaan, mutta kun metodologiaa ei ole tekstissä avattu, asia jää mysteeriksi.

Olen koonnut alla olevaan taulukkoon käsitykseni siitä, mitä virallisen aluejaon kaupunginosaa mikin Hamilon käyttämä nimitys tarkoittaa:

Hamilon käyttämä kaupunginosan nimi kaupunginosan virallinen nimi ja numero asukasluku 1.1.2016
Alppila 12 Alppiharju 11 937
Etu-Töölö 13 Etu-Töölö 14 559
Haaga 29 Haaga 26 771
Hermanni 21 Hermanni 6 325
Herttoniemi-Roihuvuori 43 Herttoniemi 26 216
Itäkeskus-Myllypuro 45 Vartiokylä 33 956
Jakomäki 41 Suurmetsä 16 209
Kaartinkaupunki 03 Kaartinkaupunki 1 050
Kallio 11 Kallio 19 434
Kamppi-Hietalahti 04 Kamppi 11 709
Kannelmäki-Malminkartano 33 Kaarela 27 357
Käpylä 25 Käpylä 8 114
Katajanokka 08 Katajanokka 4 470
Kluuvi 02 Kluuvi 636
Konala 32 Konala 6 197
Kontula-Mellunmäki 47 Mellunkylä 37 600
Koskela 26 Koskela 3 336
Kruununhaka 01 Kruununhaka 7 376
Kulosaari 42 Kulosaari 3 806
Kumpula 24 Kumpula 3 838
Laajasalo 49 Laajasalo 16 630
Lauttasaari 31 Lauttasaari 22 617
Malmi 38 Malmi 24 664
Maunula 28 Oulunkylä 23 333
Meilahti 15 Meilahti 5 091
Munkkiniemi 30 Munkkiniemi 17 629
Pakila 34 Pakila 10 399
Paloheinä 35 Tuomarinkylä 8 982
Pasila 17 Pasila 9 219
Pitäjänmäki 46 Pitäjänmäki 11 726
Pukinmäki 37 Pukinmäki 8 383
Punavuori-Eira 05 Punavuori + 06 Eira 10 163
Ruoholahti 20 Länsisatama 10 350
Ruskeasuo 16 Ruskeasuo 10 373
Santahamina 51 Santahamina 423
Sörnäinen 10 Sörnäinen 9 634
Suomenlinna 52 Suomenlinna 790
Taka-Töölö 14 Taka-Töölö 15 244
Tammisalo 44 Tammisalo 2 247
Tapanila 39 Tapaninkylä 14 159
Tapulikaupunki 40 Suutarila 19 901
Toukola 23 Toukola 8 777
Ullanlinna 07 Ullanlinna 10 629
Vallila 22 Vallila 9 326
Vuosaari 54 Vuosaari 37 834
Östersundom 55 Östersundom +
58 Karhusaari +
59 Ultuna
1 961
puuttuvat kokonaan 09 Kaivopuisto
18 Laakso
27 Vanhakaupunki
36 Viikki
48 Vartiosaari
yht. 17 901

Taulukosta ilmenee eräs muukin käytetyn aluejaon ongelma. Äänestysalueet ovat asukasluvultaan likimain samankokoisia, useimmiten noin 2 000–4 000 henkeä, joten niiden suora vertailu on vielä kohtalaisen mielekästä ilman sen kummempia painokertoimia. Hamilon vertailemien kaupunginosien asukasluvut kuitenkin vaihtelevat 423 asukkaan Santahaminasta 37 800 asukkaan Vuosaareen. On kyseenalaista, millaisia johtopäätöksiä näin erilaisia alueita suoraan vertailemalla voi ylipäänsä tehdä.

Hamilo on päätynyt yhdistämään vuosien 2008, 2011, 2012 ja 2015 vaalien tulokset yhdeksi luvuksi. Niin puolueiden kannatus kuin vieraskielisten määräkin on vaihdellut eri alueilla tällä ajanjaksolla paljon, eikä Hamilo selitä, miten hän on ottanut vaihtelun huomioon. Runsas vieraskielisten määrä vuonna 2015 tuskin on voinut vaikuttaa takautuvasti puolueiden kannatukseen vuonna 2008. (Pieniä lisähankaluuksia saattaa joissain kohdin tuottaa myös, että äänestysalueiden rajoja on muutettu vuosina 2010 ja 2013.)

Minulle jää myös epäselväksi, miten Hamilon ilmoittama vieraskielisten osuus eri kaupunginosissa on laskettu. Se ei aluesarjojen luvuilla nopeasti testailtuna vaikuttaisi olevan ainakaan vaalivuosien painotettu tai painottamaton keskiarvo, minkään yksittäisen vaalivuoden luku eikä myöskään tuorein Aluesarjat-sivustolta löytyvä luku eli tilanne vuoden 2016 alussa.

Jos analyysin olisi tehnyt jokin luotettava, journalistin ohjeisiin sitoutunut media, tai vielä parempaa, yliopistossa tai vaikkapa sektoritutkimuslaitoksessa työskentelevä ammattitutkija, saattaisin ehkä olla valmis uskomaan, että kaikille yllä mainitsemilleni erikoisille ratkaisuille löytyy hyvä perustelu ja ongelmakohdat on pystytty tavalla tai toisella taklaamaan. Hamilon ja Oikean Median uskottavuus ei kuitenkaan ole sillä tasolla, että ilman yksityiskohtaisia perusteluja voisi noin vain olettaa tekijän tietävän mitä tekee – varsinkin kun aineiston lähempi tarkastelu tuntuu pikemminkin lisäävän kysymyksiä kuin vastaavan niihin.

Edes Hamilon käyttämä data ei tue hänen johtopäätöksiään

Kelpuuttakaamme kuitenkin keskustelun vuoksi Hamilon käyttämä data kaikkine epäselvyyksineenkin. Tukeeko käytetty aineisto kirjoittajan sanallista tulkintaa? Hamilo toteaa kuvioiden lukuohjeessa mm. näin:

Jos puolueen kannatus korreloi positiivisesti monikulttuurisuuden kanssa, on trendi nouseva oikealle mentäessä.

Hamilo on siis kiinnostunut siitä, miten puolueen kannataus korreloi ”monikulttuurisuuden” (eli vieraskielisten osuuden kanssa). Tässä kohdin on hyvä muistuttaa siitä, mitä korrelaatio oikeastaan tarkoittaa. Tiivis määritelmä löytyy esimerkiksi Tieto näkyväksi -kirjasta (s. 195):

Korrelaatio eli yhteisvaihtelu on suure, joka kuvaa kahden muuttujan keskinäistä riippuvuussuhdetta. Tiedämme esimerkiksi, että ihmisen tulotasolla ja eliniänodotteella on yhteys toisiinsa: suurituloiset elävät keskimäärin pienituloisia vanhemmiksi. Havainto pätee tilastollisella tasolla, vaikka yksilötasolla tästä esiintyykin runsaasti poikkeuksia.

Voimakas korrelaatio viittaa siihen, että muuttujien välillä on jonkinlainen syy­-yhteys, mutta ei kerro sitä, kumpi muuttujista on syy ja kumpi seuraus tai löytyykö keskinäisen riippuvuuden takaa kenties jokin kolmas selittävä tekijä. Tämä ei käy ilmi pelkästään tilastollisesta analyysistä, vaan syy–seuraussuhteen selvittäminen vaatii syvällisempää tietoa aiheesta.

Korrelaation laskemiseen on useita matemaattisia menetelmiä, joista käytetyin on Pearsonin korrelaatiokerroin eli r. Se voi saada arvoja välillä –1 … 1. Korrelaatio on sitä voimakkaampi, mitä enemmän r:n arvo poikkeaa nollasta. Negatiiviset arvot kuvaavat käänteistä riippuvuussuhdetta, jossa toisen muut­tujan arvo kasvaa toisen pienentyessä.

– –

Tilanteet, joissa r olisi tasan 0, 1 tai –1 ovat varsin harvinaisia. Useimmin korrelaatiokertoimen arvo asettuu jonnekin niiden välimaastoon. Mikä silloin on voimakas tai heikko korrelaatio? Ohessa suuntaa antava jaottelu:

r = 0–0,2 ei korrelaatiota
r = 0,2–0,4 heikko korrelaatio
r = 0,4–0,6 kohtalainen korrelaatio
r = 0,6–0,8 voimakas korrelaatio
r = 0,8–1 erittäin voimakas korrelaatio

Korrelaatio on siis matemaattinen suure, jonka suuruus voidaan visualisoinnista arvioida silmämääräisesti vain karkeasti, mutta jonka laskemiseen on olemassa vakiintunut ja helppo menetelmä.

Jostain syystä Hamilo ei ole laskenut puolueiden kannatuslukujen ja ”monikulttuurisuuden” asteen välisiä korrelaatiokertoimia, vaan nojaa pelkästään laatimiinsa visuaalisiin esityksiin, joita hän tulkitsee lukijalle sanallisesti.

Alla olevaa kuviota tulkitaan mm. näin: ”Vihreiden vankin kannatus löytyy kantasuomalaisten asuttamilta alueilta ja kannatus laskee monikulttuurin lisääntyessä.”

Seuraavaa grafiikkaa kuvaillaan vuorostaan näin: ”Vasemmistoliiton kannatus näyttää olevan tasaista kautta linjan, eikä siis riipu alueen monikulttuurisuusasteesta.”

Minun täytyy sanoa, etten näe kuvioissa Hamilon kuvailemaa eroa. Minun silmiini kumpikaan niistä ei paljasta selkeää yhteyttä puolueen kannatuksen ja ”monikulttuurisuuden” välillä, vaan kaupunginosia kuvaavat pallot ovat kummassakin kuviossa melko lailla hajallaan ympäri koordinaatistoa.

Onneksi asiassa ei tarvitse luottaa pelkkään silmämääriseen arvioon, vaan voimme laskea puolueen kannatuksen ja vieraitten kielten puhujien osuuden korrelaation kullekin puolueelle:

puolue korrelaatio
SDP 0,72
kokoomus −0,55
perussuomalaiset 0,51
vihreät −0,18
vasemmistoliitto 0,15

SDP:n ja monikulttuurisuuden väillä näkyy Hamilon keräämän datan perusteella olevan voimakas (r = 0,72) positiivinen korrelaatio. Myös kokoomuksen ja perussuomalaisten kohdalla korrelaatio on kohtalainen, kuten Hamilo jutussaan kuvaileekin.

Mutta kas vain! Vihreiden ja vasemmistoliiton korrelaatiokertoimet ovat käytännössä samansuuruisia, vaikkakin toki vastakkais­suuntaisia. Toista näistä Hamilo kuvailee siis sanomalla, että ”kannatus laskee monikulttuurin lisääntyessä”, toista taas, ettei kannatus ”riipu alueen monikulttuurisuusasteesta”.

Alle 0,2:n korrelaatiota kuvaillaan yleensä sanoilla ”ei korrelaatiota”. Toisin sanoen, Hamilon väite siitä, että vihreiden kannatus olisi kääntäen verrannollinen ”monikulttuurisuuden” määrään ei kestä lähempää tarkastelua edes hänen omaa dataansa käyttäen. Hamilo on päättänyt analyysinsä tuloksen etukäteen ja näkee kuviossa mitä haluaa, vaikka yksinkertainen tilastollinen analyysi olisi paljastanut, ettei aineisto tue tehtyä johtopäätöstä. Tämä siis sen lisäksi, ettei käytetty aineisto sovi tällaisen analyysin tekemiseen ja sitä on käsitelty virheellisesti ja läpinäkymättömästi.

Näiden puutteiden lisäksi voisin listata vielä lisääkin. Esimerkiksi: Miksi tarkastelu on rajattu vain Helsinkiin? Eikö vähintään muut pk-seudun kunnat ja kenties muutkin suuret kaupunkiseudut olisi syytä ottaa mukaan isomman otoksen ja siten robustimman analyysin aikaansaamiseksi?

Entäpä miksi jutussa ei ole lainkaan käsitelty vaihtoehtoisia selityksiä havaituille puoluekannatuksen alueellisille eroille? Uskaltaisin veikata, että sekä asuinpaikka että puoluekannatus korreloivat voimakkaammin tulotason kanssa kuin puolekannatus alueen vieraskielisten määrän kanssa. Varsinkin kun Hamilon implikoitu väite – että maahanmuuttajien lähellä asuminen lisäisi maahan­muutto­vastaisia asenteita ja siten perussuomalaisten suosiota – on ristiriidassa olemassaolevan tutkimustiedon kanssa, vaadittaisiin vähän kattavampaa vaihtoehtoisten selitysmallien poissulkemista, jotta analyysi olisi uskottava.

Datajournalismin tarkoitus ei ole väännellä ja käännellä aineistoa halutun lopputuloksen saamiseksi. Oikean Median ja Hamilon kannattanee vastaisuudessa jättää tämä laji osaavampien heiniksi.

Olen kerännyt kaikki käytetyt datat yhteen CSV-muotoiseen taulukkoon, jonka halukkaat voivat ladata omien analyysien tekemistä varten.

Cartograms are hard

This cartogram, purporting to show the indebtedness of Eurozone countries, has been making the rounds on the internet. To me it mostly shows that making cartograms that can actually give the reader any relevent insights is hard, and should be left to specialists.

A cartogram is a map in which the size of the countries (or municipalities, states etc.) do not correspond to their geographical dimensions but instead are scaled according to a different variable, e.g. population. (Stricly speaking, a cartogram is not a map, but in layman’s terms it is.) Truly great cartograms exist, but in my experience, 99 per cent of the time cartograms muddle the data and don’t help gain insights.

This particular cartogram comes from a Deutsche Bank research report (p. 51). The report gives no source, nor any numbers in tabular form, nor even an explanation what the data being shown is. (“Sovereign debt” might mean a variety of things.) The different colors don’t seem to signify anything.

The worst feature of the map is that only Eurozone countries have been rescaled according to debt, whereas non-Eurozone countries (nearly half of the countries shown) retain their original size (but not shape, except for UK). Unless the reader knows all the 19 Eurozone countries by heart (and recognizes their distorted, unlabeled shapes on the map), she can only guess which countries’ sizes show relevant information and which do not.

Making the assumption that the data shown in the original cartogram is public sector liabilities minus assets, per capita (excluding social security funds for better comparability across countries) I downloaded the latest (Q1/2014) available data from Eurostat and created this simple horizontal bar chart.

Edit 23.3.: It would seem that this assumption is wrong. The data shown on the cartogram can’t be liabilities minus assets, whether or not social security funds are excluded, since the Eurostat numbers for those don’t match the relative sizes of the countries on the map. (For example, Belgium should make the top 2 in both cases, but is not in the top 10 of largest countries on the map.) Either the numbers are based on a different definition of sovereign debt, or are plain wrong. I’m guessing the latter, since I can’t imagine a definition of debt which would place Belgium very far from the top among European countries.

(I also collected the data into a single csv file for anyone wishing to create their own visualizations or analyses using the same data.)

Compare the bar chart and cartogram and decide for yourself which gives you more insights about the underlying data. I think the answer is pretty obvious.

Slate’s language map and messy census data

Slate.com published a fun article and set of maps about the languages spoken in the U.S., other than English and Spanish.

One of the maps struck me as somewhat surprising:

CBOX_BlattLanguage_2.jpg.CROP.original-original

 

Is New York really the only state where Chinese is the most spoken language after English and Spanish? And why no African languages made it to the map?

Being the nerd I am, I looked up the original data from the American Community Survey (the data source referred to in the original article) using Census Bureau’s American FactFinder. And it would indeed seem that the data on the map is (partially) wrong – or at least it doesn’t match the data I could find.

The table below has the correct most-spoken non-English, non-Spanish language (or group of languages) for each state, with the ones that were wrong in the original map highlighted:

Alabama German
Alaska Other Native North American languages
Arizona Navajo
Arkansas German
California Chinese
Colorado German
Connecticut Polish
Delaware Chinese
Florida French Creole
Georgia Korean
Hawaii Other Pacific Island languages
Idaho German
Illinois Polish
Indiana German
Iowa German
Kansas German
Kentucky German
Louisiana French (incl. Patois, Cajun)
Maine French (incl. Patois, Cajun)
Maryland African languages
Massachusetts Portuguese or Portuguese Creole
Michigan Arabic
Minnesota African languages
Mississippi Vietnamese
Missouri German
Montana Other Native North American languages
Nebraska Vietnamese
Nevada Tagalog
New Hampshire  French (incl. Patois, Cajun)
New Jersey Chinese
New Mexico Navajo
New York Chinese
North Carolina Chinese
North Dakota  German
Ohio German
Oklahoma Vietnamese
Oregon Chinese
Pennsylvania Chinese
Rhode Island Portuguese or Portuguese Creole
South Carolina German
South Dakota Other Native North American languages
Tennessee German
Texas Vietnamese
Utah Other Pacific Island languages
Vermont French (incl. Patois, Cajun)
Virginia Korean
Washington Chinese
West Virginia German/French (exact same number of speakers)
Wisconsin Hmong
Wyoming German

What could explain the errors? For starters, I’m probably using at least a slightly different data set from the original author, as I couldn’t find a data that had the “Other” categories broken down in the same level of detail as in the Slate article. (I’m using a data set “LANGUAGE SPOKEN AT HOME BY ABILITY TO SPEAK ENGLISH FOR THE POPULATION 5 YEARS AND OVER, 2008-2012 American Community Survey 5-Year Estimates”, which should be the most reliable current data available on the FactFinder web site.) So if the original article is using older but more detailed data, e.g. from 2005–07, that could explain at least some of the difference.

Another plausible scenario is that Slate uses the wrong data column in the same/similar data set. The data I used includes three values for each language: the total number of speakers, those who “speak English ‘very well’”, and those who “speak English less than ‘very well’”. With a quick glance at the data it seems to me that the original map actually shows the language with the biggest number of those “very well” speaking people, not the total speakers, but I didn’t test this hypothesis thoroughly.

Whatever the problem here, I can’t really blame the original author. The Census Bureau’s several websites are awfully difficult to use, the categorizations used are confusing and the data formats are a mess. It was hard work to simply get the data for all the states and clean it up into a usable format. (Now that I’ve done the job once, you can download the data here in a more user-friendly format if you want to play with it.)

This seems to unfortunately typical of a lot of open government data all around the world. A few magnificent exceptions aside, too much of the world’s open data is in an obscure or messy data format, hidden behind a crappy interface, accessible only to the most dedicated of hacks and wonks. As happy as I am for Gapminder, Google Public Data, and the like, I would rather see governments themselves clean up their act and start thinking seriously about how Joe Public can actually access their data. It isn’t enough that the data exists somewhere in some format. It needs to be accessible for regular people.

Ydintuho sateenkaaren väreissä – vai kuvio aallonkorkeudesta?

Fukushima-pelottelu

Sosiaalisessa mediassa on viime aikoina levinnyt artikkeleita, joissa väitetään jatkuvien radioaktiivisen veden päästöjen Fukushiman ydinvoimalasta ”myrkyttävän koko Tyynenmeren”. Jokseenkin kaikissa näissä artikkeleissa käytetään kuvituksena oheista Yhdysvaltain sään- ja valtamerentutkimusorganisaation NOAAn tekemää kuviota. Dramaattisen näköinen grafiikka todellakin nopeasti katsottuna vaikuttaa esittävän Japanista aina Pohjois- ja Etelä-Amerikan länsirannikoille asti leviäviä vaarallisen näköisiä virtauksia.

Itse asiassa kyseinen kuvio ei liity radioaktiivisuuteen mitenkään. Se esittää Tyynenmeren aallonkorkeuksia heti vuoden 2011 tuhoisan maanjäristyksen jälkeen, eli kuvaa, kuinka järistyksen aiheuttama tsunami eteni. (Tähän viitaa myös yksikön ”cm” käyttö kartassa Etelä-Amerikan kohdalle sijoitetussa asteikossa.) Alla sama kuvio rajaamattomana ja hieman suurempana, sekä NOAA:n tuottama toinen versio siitä. Urbaanilegendojen ja muiden huhujen todenperäisyyden selvittämiseen erikoistunut sivusto Snopes selittää artikkelissaan tarkemmin, mistä on kyse.

NOAA-Tsunami-plots

Miksi aallonkorkeuksia esittävä kuvio on päätynyt tämän paikkaansapitämättömän pelonlietsonnan välineeksi? Keskeinen syy lienee kuvan hurja väriskaala, jonka katsoja assosioi helposti epätoivottaviin asioihin kuten myrkkyihin ja säteilyyn. Liuku räikeästä vihreästä punaisen kautta intensiiviseen purppuraan näyttää suorastaan hehkuvan tuhoisaa energiaa. Kun kuva irroitetaan alkuperäisestä yhteydestään, muodostuu sen vahvimmaksi viestiksi voimakas ja uhkaava vaikutelma mereen leviävistä ”saasteista”. NOAA:n logo yläkulmasta antaa kuvalle uskottavuutta ja onnettomasti taustaan hukkuva asteikko jää huomioitta. Neutraalimmalla väriskaalalla toteutettuna kuva tuskin olisi päätynyt huijauksen välikappaleeksi. Ohessa pikainen kokeilu, jossa kuvion väriskaalaa on muutettu hillitymmäksi ja taustakartta haaleamman sävyiseksi.

NOAA-Tsunami-plot2_edit

 

Voisiko Fukushiman vuoto edes teoriassa saastuttaa koko Tyynenmeren alueen? Ei. Asia selviää pienellä laskuharjoituksella.

Merivesi sisältää luonnostaan monia radioaktiivisia aineita. Yksinkertaisuuden vuoksi huomioimme laskelmassamme niistä vain uraanin, jota merivedessä on keskimäärin 3,3 milligrammaa kuutiometrissä. Nopea laskutoimitus kertoo että Tyynenmeren 707,5 miljoonaan kuutiokilometriin vettä on uraania liuenneena jo entuudestaan 2 300 miljoonaa tonnia.

Fukushimasta on tähän mennessä vuotanut mereen 300 tonnia saastunutta vettä ja sitä on voimala-alueella säilytyksessä vesisäiliöissä vielä 400 000 tonnia lisää. Ydinvoimalan omistavan TEPCO-sähköyhtiön mukaan veden radioaktiivisuus on ollut enimmillään 580 000 Bq/l, mikä vastaa noin kolmea grammaa uraania litrassa. Mereen tähän mennessä vuotanut radioaktiivinen vesi sisältää siis korkeintaan 972 kiloa uraania vastaavan määrän radioaktiivisia aineita. Entäpä jos TEPCO pimentääkin tietoa ja mereen vuotaa koko ajan lisää radioaktiivista vettä? Kuinka pahasti meri saastuisi, jos voimalasta vuotaisikin tuo 300 tonnia saastunutta vettä päivittäin? Tarkastellaan tätä hieman liioiteltua skenaariota graafisesti:

Uraanigrafiikka2

Huom! Grafiikka päivitetty 16.10. Ks. kommentti artikkelin lopusta.

(Omien suositustemme vastaisesti kuviossa on käytetty kolmiulotteista valeperspektiiviä, koska vertailtavien lukujen ero on niin valtava, että niiden esittäminen pylväs- tai aluekuviolla veisi liikaa tilaa.)

Ei tietenkään ole hyvä asia, että mereen valuu radioaktiivista vettä, mutta on ilmeistä, ettei Fukushiman vuoto mitenkään pysty saastuttamaan koko Tyyntä valtamerta. Pahimmissa kuviteltavissa olevissa skenaarioissa paikallinen tuho Japanin rannikolla voi olla järkyttävä, mutta meren toisella laidalla amerikkalaisten tai australialaisten ei tarvitse missään olosuhteissa pelätä radioaktiivisen saasten kulkeutuvan heille asti. Tämän hetkisillä tiedoilla vuoto tulee luultavasti näkymään kohonneena radioaktiivisuudessa tietyissä Tyynenmeren kaloissa, mutta ei niissäkään kovin vaarallisissa määrin. Täällä Suomessa on lisäksi hyvä muistaa, että maaperämme vuoksi altistumme luonnostaan huomattavasti enemmän radioaktiiviselle säteilylle kuin esimerkiksi Yhdysvaltojen länsirannikon asukkaat.

Ehkäpä tästä kaikesta voidaan oppia se, että grafiikan tekijöiden kannattaa tarkoin harkita, millaisen mielikuvan heidän grafiikkansa asiayhteydestä irroitettuna voi synnyttää. Lukijoiden taas kannattaa pitää mielessä lähdekritiikki, etenkin ennen kuin dramaattisia grafiikoita lähdetään jakamaan eteenpäin.

Korjaus 16.10.: Alkuperäisessä tekstissä puhuttiin virheellisesti miljardeista tonneista kun tarkoitettiin miljoonia tonneja. Sama virhe toistui myös grafiikan mittasuhteissa, ja on nyt korjattu. Keskustelua  grafiikasta myös kommenteissa alla.

Infografiikan tarkoitus ei ole koristeleminen, Yle

Syyskuussa Tieto näkyväksi -seminaariin puhujaksi tuleva Miamin yliopiston infografiikan professori ja erinomaisen The Functional Art -kirjan kirjoittaja Alberto Cairo on sanonut osuvasti:

”Grafiikan tarkoitus ei ole tehdä luvuista ’kiinnostavia’ vaan muuttaa kuvattava aihe visuaaliseen muotoon, josta ihmisaivot pystyvät löytämään merkityksiä.”

Vaikuttaa, ettei Ylen grafiikkatoimituksessa ole aivan sisäistetty tätä ajatusta. Tuorein esimerkki aiheesta on tämä julkisen velan kehitystä Suomessa ja Ruotsissa 2012–30 käsittelevä A-studion grafiikka:

Julkinen+velka+graafi

Jutun aihe on kiinnostava ja grafiikka on teknisesti ihan kelvollisesti toteutettu, mutta se ei auta lainkaan asian ymmärtämisessä. Jos nyt unohdetaan se miltä Suomi ja Ruotsi erilleen Euroopan kartasta poimittuna joidenkin silmissä näyttävät, myös puhtaasti sisällöllisesti ajatellen grafiikka on epäonnistunut.

Ensinnäkin vertailu maiden välillä on tehty tarpeettoman hankalaksi, koska Ruotsin eteläkärki on huomattavasti etelämpänä kuin Suomen eteläisin kohta eli kuvion ”perusviiva” vaihtelee. Nyt Suomen velka vuonna 2012 näyttää ensi vilkaisulla yli kaksinkertaiselta Ruotsiin nähden vaikka oikeasti se on vain puolitoistakertainen. Ja koska maat ovat maantieteeltään erilaisia, sama prosenttiluku on Ruotsissa kauempana maan eteläkärjestä kuin Suomessa.

Kartassa taitaa myös olla suoranainen virhe. Suomen 2012 velkaprosenttia 57,7 % kuvaa alue jonka pohjoisraja on vedetty vain hieman yli maan puolivälin. (Koska Suomi ei ole itä–länsisuunnassa tasavahva pötkö vaan maan eteläinen osa on pohjoista suurempi, viivan eteläpuolelle jää jopa kaksi kolmasosaa Suomen pinta-alasta, mutta se on toinen juttu.)

Visuaalinen metafora on myös pielessä. Julkisen velan ja BKT:n suhde ilmaistaan toki yleensä prosentteina, mutta julkinen velka ei ole osa BKT:tä ja niinpä suhdeluku voi hyvinkin olla yli sata prosenttia, kuten on asian laita esimerkiksi Kreikassa ja Japanissa. Grafiikka on laadittu tavalla joka antaa ymmärtää vallan muuta.

Saman asian olisi huomattavasti selkeämmin kertonut yksinkertainen pylväskuvio, jollaisen pyöräyttää taulukkolaskentaohjelmassa parissa minuutissa:

Screen Shot 2013-08-28 at 21.09.40

Infografiikan tarkoitus ei ole koristeleminen. Jos grafiikasta yritetään tehdä ”hauskaa” ja ”oivaltavaa” niin ankarasti että itse pääasia, viestintä, kärsii, silloin mennään pahasti metsään.

Hesarin pysäköintigrafiikka ja maailman alkeellisin virhe

Helsingin Sanomat kirjoittaa tärkeästä aiheesta, Helsingin pysäköintipolitiikasta. Artikkelin saatteena on ”interaktiivinen grafiikka” joka yrittää auttaa hahmottamaan tilannetta. Menemättä nyt siihen että minusta grafiikka ei ole kovin interaktiivinen (ainut interaktiomahdollisuus on Seuraava-napin klikkaaminen) ja että se on muutenkin hieman sekava, Hesari sortuu maailman alkeellisimpaan virheeseen eli pinta-alojen esittämiseen väärin.

Yllä on ruutukaappaus esityksen kohdasta, jossa yritetään havainnollistaa parkkipaikkojen viemää osuutta katutilasta (14 %). Pienen P-merkin pinta-ala on kuitenkin 1,4 %, ei suinkaan 14 % isomman ruudun pinta-alasta. Jos kokosuhde olisi oikein, grafiikka näyttäisi pikemminkin tältä:

Sama mittakaavavirhe toistuu esityksessä toisessakin kohtaa. Varsin kiusallista.

A misleading chart about Chávez’s legacy

FAIR has an entertaining piece critizising AP’s treatment of the late Venezuelan president Hugo Chávez. While I have some serious misgivings about the tendency of some left-leaning writers to skate over the awful human rights record of the Chavéz regime just because he was seen as a counterweight to the United States’ economic and foreign policy, it is certainly true that spending oil revenues on social programs instead of skyskrapers or museums is a sensible choice for a country like Venezuela. However, I take issue with the use of graphics in the FAIR article.

Accompanying the story is a graphic comparing the number of people living in poverty (defined here as a daily income of less than $ 2 at purchasing power parity) in Venezuela and Brazil:

Why is the vertical scale truncated at 10 %? And more importantly, why does the x-axis start at 2003? President Chávez took office in 1999 so wouldn’t that be a more relevant starting point? (I know the short answer to these questions that the graphic is a screenshot from World Bank’s website, but I still think it’s sloppy journalism to cut corners like this when it would have taken 5 minutes to download the relevant data and do the graphic in Excel.)

I downloaded the same World Bank data and did the graphic below, starting from 1998, a year before Chávez took office. I also added the data for Colombia and Mexico. I also added the data about U.S. oil price in real (inflation-adjusted) dollars per barrel as an inverted bar chart on the background to give context.

The World Bank data is somehat patchy, but by connecting the data points we have an interesting picture appears. In 1998 Brazil, Mexico and Venezuela had the same share of population living in poverty at roughly 20 %. In Colombia the share was some 7 percentage points higher. In the newest available data Brazil and Venezuela are roughly on par and Colombia is still trailing the two by the same amount as in 1998, whereas Mexico clearly has broken off the pack. Venezuela’s progress seems to be tracking the oil price curve whereas Mexico and Brazil show steadier, if less dramatic progress towards lower poverty rates.

The moral of the story is that it’s often possible to frame the data so that it supports your claim, whether true or not. Stepping back and showing more gives the audience the chance to judge for themselves. In this case it would seem that Venezuela did indeed make significant progress in reducing poverty during Chávez’s reign, but so did other oil exporting Latin American countries. Venezuela no more looks exceptional when showing a more complete set of data.

Suomen Kuvalehti, vaihtuvat asteikot ja graafisen journalismin työprosessi

Tieto Näkyväksi -seminaari on vihdoin paketissa, joten nyt meilläkin on taas aikaa tarttua muihin päivänpolttaviin aiheisiin. (Myös kattava raportti seminaarista on tulossa, mutta sen koostamiseen menee pieni tovi.) Ja mikäpä sen luontevampi aihe kuin toisten tekemisten kritisoiminen! :)

* * *

Ainakin Katleena Kortesuo ja Timo Suvanto ovat blogeissaan kirjoittaneet Suomen Kuvalehden julkaisemasta grafiikasta, jonka perusteella eri puolueiden kannattajilla näkyy olevan hurjat näkemyserot eri kysymysten tärkeydestä kuntavaaleissa:

Jokaisen kuvion taustalla on samanlainen hilaviivoitus, joka antaa ymmärtää, että ne hyödyntäisivät samaa asteikkoa. Lähempi tarkastelu paljastaa kuitenkin, että eri kysymysten visualisoinnissa on käytetty eri mittakaavaa!

Pyöräytin kuvion nopeasti Photoshopissa ja siirsin grafiikan sellaiseen muotoon, että siinä käytetään johdonmukaisesti samaa asteikkoa. Pahoittelen hieman rosoista jälkeä:

Suurin ongelma SK:n alkuperäisessä grafiikassa ei mielestäni ole erojen liioittelu, vaan että todellinen tarina jää kertomatta. Kun kyse ei ole määrä- vaan välimatka-asteikosta, ei asteikon katkaisu sinänsä ole välttämättä suurikaan synti. Todellinen ongelma on pikemminkin, ettei kuvio kerro oikeastaan yhtään mitään koska eri asteikkojen käytön vuoksi vertailtavuus puuttuu. Esimerkiksi terveyspalvelut näyttäisivät olevan melko lailla kaikkien mielestä tärkeä kysymys vaaleissa, kun taas hallituksen linja eurokriisissä ja kuntaliitokset ovat kysymyksiä, joiden tärkeydestä on isoja näkemyseroja eri puolueiden kannattajien välillä. Tämä ei kuitenkaan ilmene alkuperäisestä grafiikasta kuin numeroarvoja katsomalla, jolloin sen voisi aivan hyvin korvata tekstillä tai taulukolla ilman että selitysvoima vähenisi lainkaan.

Ylipäänsä kuvio olisi huomattavasti kiinnostavampi, jos se näyttäisi muutakin kuin vain ääripäät. Kuvioon mahtuisivat helposti esimerkiksi kaikkien puolueiden kannattajien vastaukset sekä niiden keskiarvo. SK:n kunniaksi todettakoon, että lehti on julkaissut alkuperäisen kyselyn tulokset avoimena datana, joten kiinnostuneet voivat halutessaan tehdä parempaa grafiikkaa aiheesta. Timo Suvannon blogista löytyykin joitain kuvioita jotka avaavat mm. vastausten keskihajontaa.

* * *

Itse artikkelissa kyselyn tuloksia on käsitelty ihan fiksusti. Voi vain arvailla, miksi grafiikan kohdalla tällainen lapsus on kuitenkin päässyt tapahtumaan. Oma veikkaukseni on, että SK:n toimituksessa noudatetaan perinteistä ja valitettavan yleistä työnjakoa jossa toimitus ja graafikot elävät omissa bunkkereissaan. Graafikot eivät tässä mallissa ole osa toimitusta vaan ”resurssi” joka vain toteuttaa toimeksiantoja ottamatta kantaa sisältöön.

Asiaa 1990-luvun alussa tutkinut tanskalainen Ole Munk havaitsi, että tämä oli selvästi yleisin toimintatapa uutisgrafiikan tuotannossa sanomalehdissä. Kauimpana ”resurssimallista” oli The New York Times, joka ei-niin-yllättäen onkin mm. vuodesta toiseen siivonnut palkintopöydät alan kilpailuissa. Munk päätyykin tutkimuksensa johtopäätösosiossa suosittelemaan, että graafikot pitäisi organisaatiossa sijoittaa toimituksiin, tai ainakin fyysisesti sellaiseen paikkaan että he ovat konkreettisesti läsnä sisällöntuotannosta vastaavassa työyhteisössä. Lyhyesti sanoen graafisiin journalisteihin tulisi suhtautua kuten muihinkin journalisteihin, ei tilausten toteuttajina vaan tasaveroisena osana toimituskuntaa.

Korostan, että en tiedä miten työt Suomen Kuvalehdessä todellisuudessa on organisoitu. Lehden kustantaja on kuitenkin ilmaissut oman, varsin raadollisen näkemyksensä, joka tukee edellä mainittua oletusta: ”graafinen suunnittelu [on] lehdenteossa valmistusprosessin esivaihetta, ja –– voidaan ulkoistaa tai siirtää sisäiseen matriisiin.” Jos graafikot toimivat toimituksesta irrallaan ja toimeksiannot ovat tasoa ”tee tästä jotain kivan näköistä”, niin sitä yleensä saa mitä tilaakin: sivuntäytettä, joka ei palvele tiedonvälitystä juuri mitenkään.

Niin kauan kuin uutisgrafiikkaan suhtaudutaan vain taittopalana eikä journalistisena sisältönä jota koskevat samat laatuvaatimukset, sama huolellisuus faktojen tarkistamisessa ja samat eettiset periaatteet kuin muutakin lehden, televisio-ohjelman tai nettisivun sisältöä, tällaisia floppeja tullaan vastakin näkemään.

Lapsiperheiden kantakaupunki – vai väärin laadittu koropleettikartta?

Helsinkiläinen kunnallispoliitikko Mikko Särelä on laatinut jonkin verran huomiota sosiaalisessa mediassa keränneen kartan joka näyttää, kuinka paljon lapsia neliökilometrillä Helsingin eri osissa asuu. On ihan totta, että lasten osuus kantakaupungissa on ollut kasvamaan päin; alle kouluikäisistä helsinkiläislapsista asuu nykyisin kantakaupungissa vajaan viidenneksen isompi prosenttiosuus kuin vuonna 1992. Harmi kyllä, Särelän kartta ei paljasta tätä kunnallispolitiikan kannalta varsin merkittävää seikkaa vaan tulee kertoneeksi lähinnä Helsingin eri osa-alueiden asukastiheyden.

On vanha informaatiomuotoilun nyrkkisääntö, että koropleettikartalla ei pitäisi kuvata absoluuttisia vaan ainoastaan suhteellisia lukuja. Miksi näin? Otetaanpa käytännön esimerkiksi tämä Helsingin seudun kuntia kuvaava kartta:

(Kiitos, kiitos, kyllä tällä komistuksella vielä joku design-palkinto voitetaan!)

Yllä oleva kartta kuvaa HSL:n julkaisusta Liikkumistottumukset Helsingin seudun työssäkäyntialueella vuonna 2008 löytyvää tietoa siitä, kuinka paljon ”pääasillisia autonkäyttäjiä”* alueen eri kunnissa on, neliökilometrille laskettuna. Ja kas vain! Helsingin kantakaupungissa on 1 745 pääasiallista autonkäyttäjää neliökilometrillä kun taas esimerkiksi Vihdissä heitä on vain 25/km².

Voidaanko siis päätellä, että Helsingin kantakaupungissa suurin osa ihmisistä liikkuu omalla autolla ja Vihdissä ei? No ei voida. Pääasiallisten autonkäyttäjien osuus on kantakaupungissa vertailun pienin (37 %) ja Vihdissä puolestaan suurin (68 %). Kartta näyttää käytännössä vain sen, että Helsingin kantakaupungissa asutaan tihemmin kuin Vihdissä.

Koropleettikartta on hyvin herkkä aluejaolle. Jako on harvoin sellainen että eri alueet, olivat ne nyt sitten kuntia kuten esimerkkikartassani, suurpiirejä kuten Särelän kartassa tai jotain muita, olisivat asukasluvultaan ja -tiheydeltään vertailukelpoisia. Niinpä näytettäessä absoluuttisia lukuja, tullaan yleensä kuvanneeksi vain aluejaon ominaisuuksia. Havainnollinen esimerkki löytyy Wikipediasta, jossa sama väestötieto Bostonista on kuvattu sekä absoluuttisena henkilömääränä väestölaskentaruudukon lohkoissa että asukaslukuna eekkerillä samoissa lohkoissa:

Toki absoluuttisia lukujakin kuvaava kartta jotain paljastaa. Se, että kantakaupungissa on enemmän autoja neliökilometrillä kuin Vihdissä on ihan merkittävä tieto liikenteen suunnittelun kannalta. Mutta liikenneinsinöörit tarvitsevat paljon tarkempaa tietoa kuin mitä karkean tason teemakartta paljastaa. Tällaiset kartat palvelevat lähinnä viestinnällisiä tarpeita kun halutaan puhutella muita kuin asiantuntijoita, ja absoluuttisia lukuja esittävä koropleettikartta yleensä lähettää väärän viestin.

On totta, että lapsiperheiden palvelut kantakaupungissa eivät ole kasvaneet samaa tahtia kuin lasten osuus väestöstä ja esimerkiksi päiväkotipaikkojen saaminen on vaikeampaa kuin esikaupunkialueilla. (Poikkeuksia toki on, suuntaan ja toiseen.) Päiväkotipaikkojen pitäisi olla lähellä niiden käyttäjiä, siis lapsia, ja tässä suhteellinen osuus on vähemmän merkittävä tekijä kuin lasten absoluuttinen määrä. Mutta koropleettikartta ei ole oikea väline sen kuvaamiseen. Nyt kartta antaa sellaisen mielikuvan, että kantakaupungissa asuisi suhteellisesti – tai jopa absoluuttisesti – enemmän lapsiperheitä kuin muualla Helsingissä. Kumpikaan ei pidä paikkaansa. Lapsiperheitä asuu kantakaupungissa tiheämmässä kuin esikaupungeissa, mutta niin asuu likipitäen kaikkia muitakin kuviteltavissa olevia ihmisryhmiä: autoilijoita, maahanmuuttajia, työttömiä…

Kantakaupungin lapsiperheet – ryhmä johon kuuluu paljon omiakin ystäviäni ja tuttaviani – ja heidän alimitoitetut palvelunsa ansaitsevat kyllä huomiota näin kunnallisvaalien alla käytävässä julkisessa keskustelussa. Mielestäni Särelä on aivan oikeilla jäljillä nostaessaan teeman esiin, mutta informaatiomuotoilun ammattilaisena täytyy todeta että valittu työkalu ei sovi sen datan esittämiseen, johon sitä nyt on käytetty. Jos koropleettikarttaa haluaa käyttää, sillä voisi kuvata vaikkapa tarjolla olevien päivähoitopaikkojen suhdetta lasten määrään. Jos haluaa näyttää pelkästään lasten absoluuttisen määrän, mielenkiintoisempi olisi vaikkapa aikasarja joka näyttää miten määrä on kehittynyt. Kenties asia on kuitenkin luonteeltaan sellainen, että sen ydin tulee paremmin esiin tekstin kuin grafiikan muodossa.

____

*) Tämän käsitteen tarkempi määritelmä löytyy raportin sivulta 44. Olisin mieluummin näyttänyt henkilöautojen määrän kunnissa, mutta siitä en valitettavasti nopealla googletuksella löytänyt tietoa, joten tämä hieman monimutkainen tilastointimääritelmä saa toimia tämän demonstraation tarpeisiin likiarvona sille.

11 syytä, joiden vuoksi ”infografiikka” ei ole infografiikkaa

Portent-verkkomarkkinointiyrityksen toimitusjohtaja Ian Lurie kirjoittaa blogissaan hauskasti ja osuvasti samasta aiheesta, jota tässäkin blogissa on äskettäin käsitelty: infografiikaksi kutsutaan usein asioita, joilla on hyvin vähän tekemistä oikean infografiikan kanssa.