Kill your darlings osa 1: Valekerroin

Blogi (ja Twitter-tilimme) on viettänyt nyt kirjoittajien lomien, työkiireiden ja kausi-influenssan vuoksi aika pitkään hiljaiseloa. Asiaan tulee nyt ainakin hetkeksi muutos.

Pidämme juuri viikon mittaista kirjoitustyöpajaa jossa yritämme saada työstettyä tulevan Informaatiomuotoilu-kirjamme käsikirjoitusta julkaisukuntoon. Valmista tekstiä on jo todella paljon, mutta se ei vielä muodosta kunnolla toimivaa kokonaisuutta ja sitä tässä nyt yritetään kursia kasaan. Yksi osa tätä työtä on ”kill your darlings”, eli kylmästi heittää pois tavaraa johon on jo ehtinyt vähän kiintymään. Onneksi meillä on blogi, jossa voi julkaista niitä tekstinpätkiä, joissa on joku järjen hiven, mutta jotka eivät kunnolla istu kirjan kokonaisuuteen. :) Tällä viikolla blogiin ilmestynee ainakin muutamia tällaisia juttuja. Alla niistä ensimmäinen, jossa jauhetaan valekertoimen käsitteestä ja asteikkojen katkaisemisesta tarpeettoman pitkällisesti yleistajuisen kirjan tarpeisiin.

* * *

Yksi tunnetuimpia tilastografiikan nyrkkisääntöjä on Edward Tuften kirjassaan The Visual display of quantative information (1983) esittelemä valekertoimen käsite. Sen ajatus on yksinkertainen:

grafiikan esittämä ilmiön koko
———————————————  =  valekerroin
datan esittämä ilmiön koko

Kun valekertoimen arvo on tasan 1, grafiikka esittää datan rehellisesti. Jos sen arvo poikkeaa tästä, grafiikka esittää ilmiön suuruuden väärin. Useimmiten poikkeama on ylöspäin eli grafiikka liioittelee ilmiön suuruutta. Tyypillinen esimerkki on tapaus, jossa tilastografiikkaesitykseen lisätään esteettisistä syistä perspektiivivaikutelma. Tällöin ero katsojasta kauempana ja tätä lähempänä olevien kuvioelementtien välillä näyttää suuremmalta kuin sen lukujen valossa pitäisi olla.

Toinen valitettavan tyypillinen virhe syntyy kun pylväskuvion pylväät korvataan jollain esittävällä kuvalla jota suurennetaan arvon muuttuessa, vaikkapa öljynkulutusta eri vuosina kuvaavilla eri kokoisilla öljytynnyreillä. Jos elementtiä venytetään vain pystysuunnassa, ongelma on lähinnä esteettinen: venytetty öljytynnyri näyttää kummalliselta. Mutta tämän esteettisen ongelman korjaaminen tynnyriä vastaavasti leventämällä saa aikaan valekertoimen arvon nousemaan huikeaksi: jos mittasuhteet säilytetään entisellään, tynnyrin korkeuden tuplaaminen saa kuvion pinta-alan nelinkertaistumaan. Ja todellisuudessahan tynnyri on kolmiulotteinen objekti, jolloin sen ulkomittojen tuplaaminen johtaisi tilavuuden kahdeksankertaistumiseen!

On ilmeistä, että tällainen kuvioelementtien paisuttelu nostaa valekerrointa. Nopeasti kuitenkin huomataan, että valekertoimen arvon tarkka määrittely ei ole tällaisessa tapauksessa aivan niin yksiselitteistä kuin Tufte esittää. Tutkimukset* ovat nimittäin osoittaneet, että pinta-alan ja tilavuuden muutokset arvioidaan keskimäärin pienemmiksi kuin ne todellisuudessa ovat. Jos tämä tekijä huomioidaan, havaitaan nopeasti että valekertoimelle ei voi antaa yksiselitteistä arvoa. Luvut matemaattisesti oikein pinta-aloina näyttävä esitys voi vaikuttaa vähättelevän niiden eroja ja toisaalta numeroita liioitteleva voi vaikuttaa näyttävän ne paremmin oikein.

Valekerroin on siis oikeansuuntainen, mutta liian yksioikoinen lähtökohta toimivan informaatioesityksen laatimiseen. Valekertoimen tulisi useimmissa tapauksissa saada arvo 1, mutta tämä ei vielä yksinään riitä takaamaan, että esitys on selkeä ja ymmärretään niin kuin sen suunnittelijat toivoisivat. Toisaalta on myös tilanteita, joissa valekerroin voi Tuften ohjeiden mukaan laskettuna olla suurikin, mutta katsoja ymmärtää silti asian paremmin kuin samasta aiheesta tehdyn esityksen jossa valekerroin olisi vain 1.

Tuften valekerroin saa yhdestä poikkeavia arvoja aina kun asteikko katkaistaan jostain kohtaa, joten sitä ehdottomana ohjenuorana käyttäessä asteikon katkaisu ei koskaan ole sallittua. Meidän mielestämme joissain mainituissa tapauksissa katkaiseminen kuitenkin on soveliasta, kunhan se merkitään hyvin selvästi.

Useimmat tilastografiikan auktoriteetit hyväksyvät pylväskuviossa yksittäisten pylväiden katkaisemisen ”yläpäästä”. Tällä tarkoitetaan tilannetta, jossa yksi tai kaksi pylvästä olisivat niin pitkiä, että jos ne piirrettäisiin samaan mittakaavaan kuin muut, ne latistaisivat muiden keskinäisen vaihtelun olemattomiin. Tällöin voidaan merkitä ylimittaiset pylväät katkaisumerkillä ja kirjoittaa niiden viereen pylväiden tarkat arvot. Samoin useimmat hyväksyvät asteikon katkaisun viivakuviossa. Kuten aiemmin mainittiin, viivakuvio korostaa ennen kaikkea muutosta ja trendiä, eikä niinkään yksittäisten datapisteiden absoluuttisia arvoja. Jos olennaista kuviossa on suhteellinen vaihtelu eli vaihtelun osuus kokonaisuudesta, asteikkoa ei saa katkaista. Jos sen sijaan olennaista on vaihtelu itsessään, viivakuviossa asteikon katkaiseminen voi olla perusteltua.

Pylväskuvioissa koko asteikon katkaisemiseen suhtaudutaan yleisesti ottaen negatiivisesti. Useimmiten tämä näkökanta on perusteltu. Asteikon mielivaltainen katkaisu ylikorostaa pylväiden eroja ja antaa siten väärän käsityksen kokonaisuudesta. Joskus kuitenkin myös pylväskuviossa erot saattavat olla tärkeämpiä kuin muuttujien saamat tarkat arvot. Pystypylväskuvion voi tällaisessa tilanteessa yleensä korvata viivakuviolla, mutta viivakuviolla ei voi kuvata sellaisia ryhmiä, joissa toisella akselilla on luokitteleva muuttuja. Jos hyvin pienetkin erot ovat tarkasteltavan aiheen kannalta merkityksellisiä, katkaistut pylväät voivat antaa asiasta paremman kuvan kuin katkaisemattomat.

Ajatelkaamme seuraavanlaista esimerkkiä: Tietojärjestelmien luotettavuus ilmaistaan palvelutasosopimuksissa usein saatavuusprosentteina, jotka kuvaavat sitä kuinka suuren osan ajasta palvelun luvataan olevan käytettävissä. Mikäli luvattu taso ei toteudu, järjestelmän toimittaja sitoutuu hyvittämään puutteen.

Kuvitellaan, että haluamme tehdä kuvion, jossa vertaillaan eri palveluntarjoajia joiden lupaamat saatavuusprosentit vaihtelevat välillä 99–99,999 %. Jos teemme näistä luvuista vaakapylväskuvion katkaisematta asteikkoa, eroa parhaan ja huonoimman palveluntarjoajan välillä kuviosta tuskin huomaa.

Erohan on alle prosentti, ei siis kovin suuri, joten mitä sitten? Näin on helppo ajatella, jos ei ymmärrä, mitä tuo prosentti oikeastaan kertoo. Ero on itse asiassa valtava. 99 % saatavuusprosentti merkitsee, että yhteensä 88 tunnin ajan vuodessa palvelu ei ole käytettävissä, siis esim. vartin käyttökatkosta vuoden jokaisena päivänä. 99,999 % saatavuusprosentti taas merkitsee lupausta korkeintaan reilun viiden minuutin yhteenlasketuista käyttökatkoista vuodessa. Ero on tuhatkertainen! Pylväiden katkaisematta jättäminen siis vääristää tässä tapauksessa kuvion antamaa vaikutelmaa pahasti.

Edellä kuvattu on toki äärimmäinen poikkeustapaus. Yleisemmin voi sanoa, että kuvion tulee näyttää merkitykselliset erot riittävän suurina, että ne hahmotetaan oikein. Asteikon katkaisemista tulee pääsääntönä välttää, mutta jos katkaistu asteikko kuvaa ilmiötä paremmin kuin katkaisematon, silloin asteikko kannattaa katkaista. Asteikon katkaisemista datapisteiden keskeltä tulee kuitenkin välttää jokseenkin aina.

 *) Esim. Macdonald-Ross, Michael 1977: How numbers are shown: a review of research on the presentation of quantitative data in texts. AV Communication Review 25:4, 259–409.

Käsittämättömän kuvaaminen

Teksti on julkaistu lyhennettynä Grafia-lehdessä.

Informaatiomuotoilun voima on asioiden näyttäminen niiden todellisissa mittasuhteissa. Se on verrattain helppoa silloin, kun esitettävät asiat ovat jollain tavalla katsojan arkikokemukseen verrattavia, mutta usein näin ei ole. Valaisivimmat näkemäni esitykset ovat onnistuneet voittamaan käsityskyvyn rajoitukset ja antaneet realistisemman näkökulman asioihin kuin pelkät asiantuntijoiden selitykset.

Kuten tästä dvice.comin kuvasta näkyy, kuuluisan Virgin Galacticin avaruuskoneen lentokorkeus peittoaa saman sarjan kilpailijat, mutta on mainettaan mitättömämpi ainakin verrattuna valtiollisten ohjelmien saavutuksiin.

Yleisimmät vaikeaa mittakaavaa käyttävät esitykset liittyvät avaruuden sijaan tavalla tai toisella talouteen. Vuoden 2008 velkakriisin laajetessa syntyi joukko huonoja uutisia. Niiden myötä ilmestyi uutisiin lukumääriä, jotka ovat satoja kertaluokkia suurempia kuin mitä arkielämässä yleensä kohtaa. Kuukausien sisällä päätettiin satojen miljardien dollarien suuruisten rahamäärien kohtalosta. Pelastuspakettien vastustajat Yhdysvalloissa käyttivät pitkiä puheenvuoroja, jotka vilisivät lukusanoja, joita yleensä käytetään vain tähtitieteessä. Niillä ei kuitenkaan ollut samaa selittävää voimaa kuin hyvillä visualisoinneilla, jotka laittoivat luvut oikeaan asiayhteyteen. Lukijan on helpompi hahmottaa vuoden aikana talouteen kaadetun rahan määrä, kun koko paketti on eritelty ja laitettu vierekkäin maan suurimpien menoerien kanssa kahden vuosisadan ajalta. Tällainen visualisointi on tehokasta ja puhuttelevaa sisältöä ja vaatii suunnittelijalta samaa vastuuta kuin toimittajalta.

Vaikka esitys saisi olla visuaalisesti hiotumpi, se auttaa hahmottamaan elvytyspaketin suuruutta. Kuva ei aivan ehtinyt Bailout Nation -kirjan kovakantiseen painokseen, mutta se osoittaa tekijöidensä kyvyn esittää asiat ymmärrettävässä asiayhteydessä.

Toinen ihmiselle vaikeasti hahmottuva asia on todennäköisyys (tähän lottoamisenkin suosio perustuu). Olemme luonnostamme taitamattomia arvioimaan harvinaisten tapahtumien todennäköisyyksiä. Seuraavanlaisia kuvia voisi jakaa kaikille luulotautisille ja kroonisesti pelokkaille.

(klikkaa päästäksesi suurempaan versioon)

Hyvän viestinnän ohjeen mukaan ihmisen havaintokyky on kaventuva ja tarkentuva: havaitsemme suuripiirteisesti laajoja kokonaisuuksia ja niiden pienempiä osasia yksityiskohtineen, mutta emme kumpaakin yhtä aikaa. Kirjoittajalle tämä tarkoittaa, että uudet asiat esitellään aloittamalla yleisistä piirteistä ja päätymällä lopulta yksityiskohtiin. Informaatiomuotoilussa sama johdattelu tehdään käyttämällä kuvan sisäistä visuaalista kielioppia. Siinä yleinen taso on se, jonka lukija huomaa ensinäkemältä. Se määrittää mittakaavan ja esitettävän tiedon eri tyypit. Yksityiskohtaisin taso näyttää tarkimman tiedon, jonka parhaassa tapauksessa voi suhteuttaa saumattomasti kuvan muihin osiin. Pelkkä datatiheys ei tee kuvasta arvokasta, sillä ilman yhdistäviä vinkkejä se on vain tiedon saareke. Edellä näytetyissä esimerkeissä johdattelu yleisen ja yksityisen välillä tapahtui yksinkertaisesti visualisoimalla luvut eri asiayhteyksiin. Saman voi tehdä monipolvisesti, kuten itse kokeilin tässä puretussa aikajanassa, joka havainnollistaa geologisen ajan jakotapaa:

 

(kuva suurenee klikkaamalla)

Harmittavan yleinen tapa graafikoilla on tekstin välttäminen informaatiomuotoilussa. Ehkä kyse on liiasta itsevarmuudesta (tai turhamaisuudesta). Tekijä luottaa kuvakerrontansa vahvuuteen niin paljon, että tekstin käyttäminen tuntuu luovuttamiselta. Ehkä kyseessä on myös jonkinlainen tiedostamaton reviirijako kuvittavan ja kirjoittavan väen välillä. Joka tapauksessa on harvoin mitään oikeaa syytä olla käyttämättä tekstiä osana esitystä. Uudet asiat on joka tapauksessa avattava sanallisesti, ja parhaiten se onnistuu kun selitys on osa kuvitusta. Typografian hierarkiaa luovat keinot ovat kuvallisia kerrontatapoja muiden rinnalla.

Kun visuaalinen kielioppi on johdonmukainen ja helppo hahmottaa, sitä voi jatkaa eri mittakaavojen lisäksi eri kuviin. Kun samaan raamiin laadittuja kuvallisia tietokokonaisuuksia järjestetään kuvasarjaksi, niitä vertaamalla voi nähdä pieniäkin muutoksia lukumäärien ja muiden arvojen välillä. Edward Tufte käyttää näistä nimitystä small multiples, toistokuvio. Tämän keinon vahvuus vaikeasti hahmotettavien asioiden kuvaamisessa on sen kyky kertoa muutoksen laatu ja määrä hyvin tarkasti. Tällaiset esitykset näyttävät sommittelunsa puolesta hieman sarjakuvilta, ja niissä toimii lukemisen johdattelun kannalta pitkälti sama logiikka. Tufte on sitoutunut pelkistettyyn ja hienovaraiseen esittämiseen ja perustelee mieltymyksensä hyvin, mutta sarjakuvakerronnan keinoilla olisi paljon annettavaa informaatiomuotoilulle. Etenkin aikasarjaan järjestetyissä kuvissa sarjakuvateoreetikko Scott McCloudin ohjeet ruutusommittelusta tekisivät esityksistä parempia. Ne ovat yhtä avartavaa luettavaa kuin mikä tahansa informaatiomuotoilun teorian klassikoista, mutta ikävä kyllä yhtä huonosti saatavilla suomeksi. Hänen nettisivunsa ovat kuitenkin hyvää luettavaa kaikille graafikoille. McCloud jakaa ruutuvaihdosten tyypit kuuteen luokkaan riippuen ajallisen ja tilallisen muutoksen määrästä ruutujen välillä. Hetkestä hetkeen tapahtuva muutos on näistä välittömin, kun taas suurin muutos vaihtaa kohtauksen tapahtumapaikan ja -ajan täysin. Mikään teoria ei tietenkään korvaa kokeneen suunnittelijan visuaalista rytmitajua, mutta ruutukerrontaan liittyy yllättäviä ja helppotajuisia lainalaisuuksia, joita avataan lyhyesti kirjassa Sarjakuva – näkymätön taide.

Tilastografiikassa mitta-asteikon yhdenmukaisuus on selkeyden kulmakivi. Siitä tulee kuitenkin rasite, kun esitetään yhdessä kuvassa täysin eri kertaluokkien lukuja. Tällaisiin tarkoituksiin ei ole sellaisia valmiita ratkaisuja, joita muut kuin asiantuntijat osaisivat lukea. Tämä ei estä hyvää tarkoittavia valistajia yrittämästä. Välillä suurelle yleisölle tarkoitettuihin julkaisuihin eksyy jopa tilastokuvia, joissa käytetään logaritmista asteikkoa. Ne kertovat tekijöiden oppineisuudesta, mutta harvoin avaavat sisältöä lukijalle. Eri mittakaavojen asioita vertailtaessa onkin välillä luovuttava yhtenäisestä mitta-asteikosta. Rinnastus on silti mahdollista, jos muut kuvalliset mittarit ovat yhtenäiset. Väri on tässä yleinen apu, samoin kuin typografinen hierarkia. Isotype-kuvista tutut yksikkösymbolit ovat myös tapa kuvata lukumääriä vertailukelpoisesti. Kun jokainen symboli on suunniteltu hyvin skaalautuvaksi, rinnastettavilla kuvilla voi olla suurikin määrällinen ero. Mittakaavaongelman ratkaisemiseksi osiin purettu kuva vie usein enemmän tilaa ja esittää edelleen saman datamäärän, mutta tiheyden menetystä korvaa sen saama kerronnallinen arvo. Vaikka infokuvan ei pidäkään olla kuvitusta, tällaiset koostetut esitykset ovat usein esteettisestikin kiinnostustavia.

Vaikeasti hahmotettavien asioiden tulkitsemisessa kuviksi pelkät äärimmäiset mittakaavat eivät ole ainoa ongelma. Suunnittelijan oma ymmärrys aiheesta on kapein pullonkaula. Parhaissa esityksissä tekijä on hankkinut vähintään perustiedot aiheesta ennen kuvan luonnostelua, mikä näkyy oivaltavina ja genren rajoja rikkovina ratkaisuina. On parempi, että aineistoon perehtyy graafinen suunnittelija kuin että kuvan tekisi visuaalisuuteen perehtymätön aiheen asiantuntija. Moni tärkeä uutinen on joka tapauksessa vaikea käsittää, ja hyvä kuva avaa sen sisällön tavalla, johon pelkkä teksti ei kykene.