Valtiovarainministeriön työllisyysgrafiikka ei johda tarkoituksella harhaan

Valtiovarainministeriö julkaisi eilen Twitter-tilillään grafiikan avoimien työpaikkojen ja työttömyyden määrän kehityksestä 2007–2016:

Kuvajournalisti Antti Yrjönen syytti VM:n grafiikkaa tarkoituksellisen harhaanjohtavaksi Twitterissä ja Facebookissa ja laati grafiikasta oman versionsa:

Yrjösen kriitiikki lähti leviämään vauhdilla ja lopulta myös valtamedia nosti sen esiin. MTV3 kirjoitti tapauksesta varsin lennokkalla otsikolla ”Työttömyysgrafiikka oli vinksallaan – kansan kritiikki oikaisi valtiovarainministeriön käppyrät”.

Pintapuolisella vilkaisulla VM:n grafiikka saattaa tosiaan antaa lukijalle sellaisen mielikuvan, että avoimia työpaikkoja olisi suunnilleen yhtä paljon kuin työttömiä työnhakijoita. Tästä on vedetty sellaisia johtopäätöksiä, että grafiikalla yritettäisiin väittää, että jokaiselle halukkalle kyllä löytyy töitä. Tämä ei kuitenkaan ole aiottu viesti.

Mistäkö tiedän? Grafiikka on minun tekemäni.

Valtiovarainministeriö otti minuun yhteyttä joulukuun loppupuolella aiheena muutaman työllisyystilanteen kehitystä kuvaavan grafiikan sommittelu ministeriön käyttöön. Nyt julkaistu viivakuvio on osa tätä kokonaisuutta.

Kuviossa vertaillaan työttömien työnhakijoiden määrän kehitystä vuosina 2007–2016 suhteessa avoimien työpaikkojen määrään. Kiinnostavaa ja olennaista kuviossa on, että 2013–2016 sekä avointen työpaikkojen että työttömien määrä on kasvanut, kun normaalisti nämä muuttujat kulkevat vastakkaisiin suuntiin. Tämä on huolestuttavaa ja kertoo mahdollisesti siitä, että työnhakijoiden osaaminen vastaa aiempaa huonommin työantajien tarpeisiin.

Sain melko vapaat kädet ehdottaa aineistolle soveltuvaa esitystapaa. Kokeilimme useita kuviotyyppejä, myös esim. Olli Kärkkäisen Twitterissä ehdottamaa, työllisyys- ja työttömyysasteen keskinäistä suhdetta taloustieteellisissä tutkimusjulkaisuissa perinteisesti kuvaamaan käytettyä ns. Beveridge-kuviota:

(Kuvion teksti on minun kirjoittamani alustava hahmotelma, ei VM:n tuottama tai hyväksymä.)

Vaikka grafiikan aiottu kohdeyleisö oli erityisesti virkamiehet, toimittajat ja muut työllisyyskysymyksiin ainakin jonkin verran perehtyneet ihmiset, Beveridge-kuvio on tottumattomalle hankalasti hahmotettava. Niinpä päädyimme lopulta käyttämään tutumpaa viivakuviota. Kahden asteikon käyttöön päädyttiin minun ehdotuksestani, ei asiakkaan pyynnöstä.

Kuvion tarkoituksena ei ole antaa ymmärtää, että avoimia työpaikkoja olisi tarjolla riittävästi kaikille halukkaille työnhakijoille, kuten Antti Yrjönen ja moni hänen laatimaansa ”vähemmän harhaanjohtavaa” versiota kommentoinut tuntuu ajattelevan. Minua ei pyydetty laatimaan kuviota, jonka tarkoitus olisi antaa tällainen vaikutelma, enkä olisi tällaiseen pyyntöön suostunutkaan, koska aineisto ei sellaista väitettä tue. Minun on vaikea myöskään uskoa, että kukaan olisi niin typerä, että kuvittelisi noin kömpelön vedätyksen menevän läpi.

Työmarkkinoiden toimintaa tunteville on selvää, että työnhakijoita on käytännössä aina moninkertainen määrä avoimiin työpaikkoihin nähden. Valittuun visuaaliseen ratkaisuun päädyttiin siksi, että kiinnostuksen kohteena oli se, miten tämä suhdeluku on kehittynyt. Grafiikassa käytetään kahta asteikkoa, jotta avointen työpaikkojen ja työttömien määrän vertailu ylipäänsä olisi visuaalisesti mahdollista. Yrjösen ehdottamassa ”vähemmän harhaanjohtavassa” versiossa tällainen vertailu ei onnistu. Siinä avointen työpaikkojen määrä näyttää pysyneen lähes ennallaan, vaikka todellisuudessa niiden määrä on vuoden 2009 aallonpohjasta kasvanut vuoteen 2016 mennessä noin 50 % ja lyhyemmälläkin jaksolla 2013–2016 lähes 20 %. Yrjösen ehdottama esitystapa hukkaa siis erittäin olennaista tietoa.

Lisäksi yhtenäistä asteikkoa käytettäessä jää huomaamatta, että vuodesta 2013 alkaen sekä työttömien että avointen työpaikkojen määrä on kasvanut, kun yleensä avointen työpaikkojen määrän kasvaessa työttömien määrä laskee ja päin vastoin. Tämä ongelma on myös esimerkiksi Juho Mikkosen ehdottamassa, muutoin sinänsä toimivassa ratkaisussa, jossa visualisoidaan vain työpaikkojen ja työnhakijoiden suhdeluvun kehitys. Tätäkin ehdotusta muistuttavaa versiota kokeilimme ennen nyt julkaistuun vaihtoehtoon päätymistä:

(Kuvion otsikointi on minun kirjoittamani ehdotus, ei VM:n tuottama tai hyväksymä.)

Kahden asteikon käyttö tilastokuviossa on aivan normaali käytäntö kun halutaan vertailla kahden eri muuttujan suhteellista kehitystä. (Ks. esim. Koponen, Hildén & Vapaasalo 2016, s. 219; Kuusela 2000, s. 34–36.) Kun asteikkoväli on valittu oikein ja käytetyt asteikot on merkitty selvästi, tässä ei lähtökohtaisesti ole mitään harhaanjohtavaa. Toki tehtyjä ratkaisuja pitää arvioida tapauskohtaisesti, eikä se, että kuvio on teknisesti oikein laadittu vielä takaa sitä, ettei se johda lukijaa harhaan.

On selvää, että grafiikka, joka saa sadat ihmiset sosiaalisessa mediassa epäilemään valtiovarainministeriötä tarkoituksellisesta harhaanjohtamisesta on epäonnistunut viestinnällisissä tavoitteissaan. Vastuu epäonnistumisesta on viime kädessä suunnittelijalla, tässä tapauksessa siis minulla. En osaa sanoa onko ongelma itse grafiikassa, siihen liittyvissä teksteissä, julkaisukontekstissa vai kenties jossain niiden yhdistelmässä. Tarkoituksena ei kuitenkaan ole ollut huijata ketään vaan mahdollistaa avointen työpaikkojen ja työttömien määrän kehityksen visuaalinen vertailu, joka ei ehdotetuissa ”paremmissa” vaihtoehdoissa onnistu. (Poikkeuksena tästä Beveridge-kuvio, joka sekin käyttää kahta eri asteikkoa.)

* * *

Itselleni yksi tarinan opetuksista on, että grafiikan ”freimauksella”, eli sillä, missä kontekstissa ja minkälaisen saatteen kanssa se on esitetty, on suuri merkitys sen tulkinnalle. Kun valtiovarainministeriölle laatimani kuvio lähti elämään omaa elämäänsä vihaisella saatetekstillä varustettuna, moni ihminen kansanedustajia myöten oli valmis uskomaan ministeriön pyrkineen tarkoituksella johtamaan kansalaisia harhaan.

Olen tietenkin jäävi arvioimaan, miten kuvioon olisi reagoitu ilman tätä ”lukuohjetta”, mutta uskon vakaasti, että läheskään yhtä moni ei olisi tullut samaan lopputulokseen jos olisi nähnyt grafiikan ilman tätä kriittistä saatetekstiä. Ja kääntäen: jos kuvion yhteydessä olisi jo alkajaisiksi ollut selkeämmin alleviivattuna se, mikä sen tekijän ja tilaajan mielestä on sen olennainen sanoma, grafiikan keskeinen viesti olisi kenties helpommin tulkittu samoin kuin itse sitä tulkitsimme.

Alan ammattilaisten keskuudessa yleinen ajatus ”älä selitä vaan anna datan puhua puolestaan” ei tämän kokemuksen perusteella ole hyvä periaate visualisointien suunnitteluun silloin, kun julkaisuympäristönä on draamaa ja vastakkainasettelua rakastava sosiaalinen media.

Kill your darlings osa 1: Valekerroin

Blogi (ja Twitter-tilimme) on viettänyt nyt kirjoittajien lomien, työkiireiden ja kausi-influenssan vuoksi aika pitkään hiljaiseloa. Asiaan tulee nyt ainakin hetkeksi muutos.

Pidämme juuri viikon mittaista kirjoitustyöpajaa jossa yritämme saada työstettyä tulevan Informaatiomuotoilu-kirjamme käsikirjoitusta julkaisukuntoon. Valmista tekstiä on jo todella paljon, mutta se ei vielä muodosta kunnolla toimivaa kokonaisuutta ja sitä tässä nyt yritetään kursia kasaan. Yksi osa tätä työtä on ”kill your darlings”, eli kylmästi heittää pois tavaraa johon on jo ehtinyt vähän kiintymään. Onneksi meillä on blogi, jossa voi julkaista niitä tekstinpätkiä, joissa on joku järjen hiven, mutta jotka eivät kunnolla istu kirjan kokonaisuuteen. :) Tällä viikolla blogiin ilmestynee ainakin muutamia tällaisia juttuja. Alla niistä ensimmäinen, jossa jauhetaan valekertoimen käsitteestä ja asteikkojen katkaisemisesta tarpeettoman pitkällisesti yleistajuisen kirjan tarpeisiin.

* * *

Yksi tunnetuimpia tilastografiikan nyrkkisääntöjä on Edward Tuften kirjassaan The Visual display of quantative information (1983) esittelemä valekertoimen käsite. Sen ajatus on yksinkertainen:

grafiikan esittämä ilmiön koko
———————————————  =  valekerroin
datan esittämä ilmiön koko

Kun valekertoimen arvo on tasan 1, grafiikka esittää datan rehellisesti. Jos sen arvo poikkeaa tästä, grafiikka esittää ilmiön suuruuden väärin. Useimmiten poikkeama on ylöspäin eli grafiikka liioittelee ilmiön suuruutta. Tyypillinen esimerkki on tapaus, jossa tilastografiikkaesitykseen lisätään esteettisistä syistä perspektiivivaikutelma. Tällöin ero katsojasta kauempana ja tätä lähempänä olevien kuvioelementtien välillä näyttää suuremmalta kuin sen lukujen valossa pitäisi olla.

Toinen valitettavan tyypillinen virhe syntyy kun pylväskuvion pylväät korvataan jollain esittävällä kuvalla jota suurennetaan arvon muuttuessa, vaikkapa öljynkulutusta eri vuosina kuvaavilla eri kokoisilla öljytynnyreillä. Jos elementtiä venytetään vain pystysuunnassa, ongelma on lähinnä esteettinen: venytetty öljytynnyri näyttää kummalliselta. Mutta tämän esteettisen ongelman korjaaminen tynnyriä vastaavasti leventämällä saa aikaan valekertoimen arvon nousemaan huikeaksi: jos mittasuhteet säilytetään entisellään, tynnyrin korkeuden tuplaaminen saa kuvion pinta-alan nelinkertaistumaan. Ja todellisuudessahan tynnyri on kolmiulotteinen objekti, jolloin sen ulkomittojen tuplaaminen johtaisi tilavuuden kahdeksankertaistumiseen!

On ilmeistä, että tällainen kuvioelementtien paisuttelu nostaa valekerrointa. Nopeasti kuitenkin huomataan, että valekertoimen arvon tarkka määrittely ei ole tällaisessa tapauksessa aivan niin yksiselitteistä kuin Tufte esittää. Tutkimukset* ovat nimittäin osoittaneet, että pinta-alan ja tilavuuden muutokset arvioidaan keskimäärin pienemmiksi kuin ne todellisuudessa ovat. Jos tämä tekijä huomioidaan, havaitaan nopeasti että valekertoimelle ei voi antaa yksiselitteistä arvoa. Luvut matemaattisesti oikein pinta-aloina näyttävä esitys voi vaikuttaa vähättelevän niiden eroja ja toisaalta numeroita liioitteleva voi vaikuttaa näyttävän ne paremmin oikein.

Valekerroin on siis oikeansuuntainen, mutta liian yksioikoinen lähtökohta toimivan informaatioesityksen laatimiseen. Valekertoimen tulisi useimmissa tapauksissa saada arvo 1, mutta tämä ei vielä yksinään riitä takaamaan, että esitys on selkeä ja ymmärretään niin kuin sen suunnittelijat toivoisivat. Toisaalta on myös tilanteita, joissa valekerroin voi Tuften ohjeiden mukaan laskettuna olla suurikin, mutta katsoja ymmärtää silti asian paremmin kuin samasta aiheesta tehdyn esityksen jossa valekerroin olisi vain 1.

Tuften valekerroin saa yhdestä poikkeavia arvoja aina kun asteikko katkaistaan jostain kohtaa, joten sitä ehdottomana ohjenuorana käyttäessä asteikon katkaisu ei koskaan ole sallittua. Meidän mielestämme joissain mainituissa tapauksissa katkaiseminen kuitenkin on soveliasta, kunhan se merkitään hyvin selvästi.

Useimmat tilastografiikan auktoriteetit hyväksyvät pylväskuviossa yksittäisten pylväiden katkaisemisen ”yläpäästä”. Tällä tarkoitetaan tilannetta, jossa yksi tai kaksi pylvästä olisivat niin pitkiä, että jos ne piirrettäisiin samaan mittakaavaan kuin muut, ne latistaisivat muiden keskinäisen vaihtelun olemattomiin. Tällöin voidaan merkitä ylimittaiset pylväät katkaisumerkillä ja kirjoittaa niiden viereen pylväiden tarkat arvot. Samoin useimmat hyväksyvät asteikon katkaisun viivakuviossa. Kuten aiemmin mainittiin, viivakuvio korostaa ennen kaikkea muutosta ja trendiä, eikä niinkään yksittäisten datapisteiden absoluuttisia arvoja. Jos olennaista kuviossa on suhteellinen vaihtelu eli vaihtelun osuus kokonaisuudesta, asteikkoa ei saa katkaista. Jos sen sijaan olennaista on vaihtelu itsessään, viivakuviossa asteikon katkaiseminen voi olla perusteltua.

Pylväskuvioissa koko asteikon katkaisemiseen suhtaudutaan yleisesti ottaen negatiivisesti. Useimmiten tämä näkökanta on perusteltu. Asteikon mielivaltainen katkaisu ylikorostaa pylväiden eroja ja antaa siten väärän käsityksen kokonaisuudesta. Joskus kuitenkin myös pylväskuviossa erot saattavat olla tärkeämpiä kuin muuttujien saamat tarkat arvot. Pystypylväskuvion voi tällaisessa tilanteessa yleensä korvata viivakuviolla, mutta viivakuviolla ei voi kuvata sellaisia ryhmiä, joissa toisella akselilla on luokitteleva muuttuja. Jos hyvin pienetkin erot ovat tarkasteltavan aiheen kannalta merkityksellisiä, katkaistut pylväät voivat antaa asiasta paremman kuvan kuin katkaisemattomat.

Ajatelkaamme seuraavanlaista esimerkkiä: Tietojärjestelmien luotettavuus ilmaistaan palvelutasosopimuksissa usein saatavuusprosentteina, jotka kuvaavat sitä kuinka suuren osan ajasta palvelun luvataan olevan käytettävissä. Mikäli luvattu taso ei toteudu, järjestelmän toimittaja sitoutuu hyvittämään puutteen.

Kuvitellaan, että haluamme tehdä kuvion, jossa vertaillaan eri palveluntarjoajia joiden lupaamat saatavuusprosentit vaihtelevat välillä 99–99,999 %. Jos teemme näistä luvuista vaakapylväskuvion katkaisematta asteikkoa, eroa parhaan ja huonoimman palveluntarjoajan välillä kuviosta tuskin huomaa.

Erohan on alle prosentti, ei siis kovin suuri, joten mitä sitten? Näin on helppo ajatella, jos ei ymmärrä, mitä tuo prosentti oikeastaan kertoo. Ero on itse asiassa valtava. 99 % saatavuusprosentti merkitsee, että yhteensä 88 tunnin ajan vuodessa palvelu ei ole käytettävissä, siis esim. vartin käyttökatkosta vuoden jokaisena päivänä. 99,999 % saatavuusprosentti taas merkitsee lupausta korkeintaan reilun viiden minuutin yhteenlasketuista käyttökatkoista vuodessa. Ero on tuhatkertainen! Pylväiden katkaisematta jättäminen siis vääristää tässä tapauksessa kuvion antamaa vaikutelmaa pahasti.

Edellä kuvattu on toki äärimmäinen poikkeustapaus. Yleisemmin voi sanoa, että kuvion tulee näyttää merkitykselliset erot riittävän suurina, että ne hahmotetaan oikein. Asteikon katkaisemista tulee pääsääntönä välttää, mutta jos katkaistu asteikko kuvaa ilmiötä paremmin kuin katkaisematon, silloin asteikko kannattaa katkaista. Asteikon katkaisemista datapisteiden keskeltä tulee kuitenkin välttää jokseenkin aina.

 *) Esim. Macdonald-Ross, Michael 1977: How numbers are shown: a review of research on the presentation of quantitative data in texts. AV Communication Review 25:4, 259–409.