Kill your darlings osa 1: Valekerroin

Blogi (ja Twitter-tilimme) on viettänyt nyt kirjoittajien lomien, työkiireiden ja kausi-influenssan vuoksi aika pitkään hiljaiseloa. Asiaan tulee nyt ainakin hetkeksi muutos.

Pidämme juuri viikon mittaista kirjoitustyöpajaa jossa yritämme saada työstettyä tulevan Informaatiomuotoilu-kirjamme käsikirjoitusta julkaisukuntoon. Valmista tekstiä on jo todella paljon, mutta se ei vielä muodosta kunnolla toimivaa kokonaisuutta ja sitä tässä nyt yritetään kursia kasaan. Yksi osa tätä työtä on ”kill your darlings”, eli kylmästi heittää pois tavaraa johon on jo ehtinyt vähän kiintymään. Onneksi meillä on blogi, jossa voi julkaista niitä tekstinpätkiä, joissa on joku järjen hiven, mutta jotka eivät kunnolla istu kirjan kokonaisuuteen. :) Tällä viikolla blogiin ilmestynee ainakin muutamia tällaisia juttuja. Alla niistä ensimmäinen, jossa jauhetaan valekertoimen käsitteestä ja asteikkojen katkaisemisesta tarpeettoman pitkällisesti yleistajuisen kirjan tarpeisiin.

* * *

Yksi tunnetuimpia tilastografiikan nyrkkisääntöjä on Edward Tuften kirjassaan The Visual display of quantative information (1983) esittelemä valekertoimen käsite. Sen ajatus on yksinkertainen:

grafiikan esittämä ilmiön koko
———————————————  =  valekerroin
datan esittämä ilmiön koko

Kun valekertoimen arvo on tasan 1, grafiikka esittää datan rehellisesti. Jos sen arvo poikkeaa tästä, grafiikka esittää ilmiön suuruuden väärin. Useimmiten poikkeama on ylöspäin eli grafiikka liioittelee ilmiön suuruutta. Tyypillinen esimerkki on tapaus, jossa tilastografiikkaesitykseen lisätään esteettisistä syistä perspektiivivaikutelma. Tällöin ero katsojasta kauempana ja tätä lähempänä olevien kuvioelementtien välillä näyttää suuremmalta kuin sen lukujen valossa pitäisi olla.

Toinen valitettavan tyypillinen virhe syntyy kun pylväskuvion pylväät korvataan jollain esittävällä kuvalla jota suurennetaan arvon muuttuessa, vaikkapa öljynkulutusta eri vuosina kuvaavilla eri kokoisilla öljytynnyreillä. Jos elementtiä venytetään vain pystysuunnassa, ongelma on lähinnä esteettinen: venytetty öljytynnyri näyttää kummalliselta. Mutta tämän esteettisen ongelman korjaaminen tynnyriä vastaavasti leventämällä saa aikaan valekertoimen arvon nousemaan huikeaksi: jos mittasuhteet säilytetään entisellään, tynnyrin korkeuden tuplaaminen saa kuvion pinta-alan nelinkertaistumaan. Ja todellisuudessahan tynnyri on kolmiulotteinen objekti, jolloin sen ulkomittojen tuplaaminen johtaisi tilavuuden kahdeksankertaistumiseen!

On ilmeistä, että tällainen kuvioelementtien paisuttelu nostaa valekerrointa. Nopeasti kuitenkin huomataan, että valekertoimen arvon tarkka määrittely ei ole tällaisessa tapauksessa aivan niin yksiselitteistä kuin Tufte esittää. Tutkimukset* ovat nimittäin osoittaneet, että pinta-alan ja tilavuuden muutokset arvioidaan keskimäärin pienemmiksi kuin ne todellisuudessa ovat. Jos tämä tekijä huomioidaan, havaitaan nopeasti että valekertoimelle ei voi antaa yksiselitteistä arvoa. Luvut matemaattisesti oikein pinta-aloina näyttävä esitys voi vaikuttaa vähättelevän niiden eroja ja toisaalta numeroita liioitteleva voi vaikuttaa näyttävän ne paremmin oikein.

Valekerroin on siis oikeansuuntainen, mutta liian yksioikoinen lähtökohta toimivan informaatioesityksen laatimiseen. Valekertoimen tulisi useimmissa tapauksissa saada arvo 1, mutta tämä ei vielä yksinään riitä takaamaan, että esitys on selkeä ja ymmärretään niin kuin sen suunnittelijat toivoisivat. Toisaalta on myös tilanteita, joissa valekerroin voi Tuften ohjeiden mukaan laskettuna olla suurikin, mutta katsoja ymmärtää silti asian paremmin kuin samasta aiheesta tehdyn esityksen jossa valekerroin olisi vain 1.

Tuften valekerroin saa yhdestä poikkeavia arvoja aina kun asteikko katkaistaan jostain kohtaa, joten sitä ehdottomana ohjenuorana käyttäessä asteikon katkaisu ei koskaan ole sallittua. Meidän mielestämme joissain mainituissa tapauksissa katkaiseminen kuitenkin on soveliasta, kunhan se merkitään hyvin selvästi.

Useimmat tilastografiikan auktoriteetit hyväksyvät pylväskuviossa yksittäisten pylväiden katkaisemisen ”yläpäästä”. Tällä tarkoitetaan tilannetta, jossa yksi tai kaksi pylvästä olisivat niin pitkiä, että jos ne piirrettäisiin samaan mittakaavaan kuin muut, ne latistaisivat muiden keskinäisen vaihtelun olemattomiin. Tällöin voidaan merkitä ylimittaiset pylväät katkaisumerkillä ja kirjoittaa niiden viereen pylväiden tarkat arvot. Samoin useimmat hyväksyvät asteikon katkaisun viivakuviossa. Kuten aiemmin mainittiin, viivakuvio korostaa ennen kaikkea muutosta ja trendiä, eikä niinkään yksittäisten datapisteiden absoluuttisia arvoja. Jos olennaista kuviossa on suhteellinen vaihtelu eli vaihtelun osuus kokonaisuudesta, asteikkoa ei saa katkaista. Jos sen sijaan olennaista on vaihtelu itsessään, viivakuviossa asteikon katkaiseminen voi olla perusteltua.

Pylväskuvioissa koko asteikon katkaisemiseen suhtaudutaan yleisesti ottaen negatiivisesti. Useimmiten tämä näkökanta on perusteltu. Asteikon mielivaltainen katkaisu ylikorostaa pylväiden eroja ja antaa siten väärän käsityksen kokonaisuudesta. Joskus kuitenkin myös pylväskuviossa erot saattavat olla tärkeämpiä kuin muuttujien saamat tarkat arvot. Pystypylväskuvion voi tällaisessa tilanteessa yleensä korvata viivakuviolla, mutta viivakuviolla ei voi kuvata sellaisia ryhmiä, joissa toisella akselilla on luokitteleva muuttuja. Jos hyvin pienetkin erot ovat tarkasteltavan aiheen kannalta merkityksellisiä, katkaistut pylväät voivat antaa asiasta paremman kuvan kuin katkaisemattomat.

Ajatelkaamme seuraavanlaista esimerkkiä: Tietojärjestelmien luotettavuus ilmaistaan palvelutasosopimuksissa usein saatavuusprosentteina, jotka kuvaavat sitä kuinka suuren osan ajasta palvelun luvataan olevan käytettävissä. Mikäli luvattu taso ei toteudu, järjestelmän toimittaja sitoutuu hyvittämään puutteen.

Kuvitellaan, että haluamme tehdä kuvion, jossa vertaillaan eri palveluntarjoajia joiden lupaamat saatavuusprosentit vaihtelevat välillä 99–99,999 %. Jos teemme näistä luvuista vaakapylväskuvion katkaisematta asteikkoa, eroa parhaan ja huonoimman palveluntarjoajan välillä kuviosta tuskin huomaa.

Erohan on alle prosentti, ei siis kovin suuri, joten mitä sitten? Näin on helppo ajatella, jos ei ymmärrä, mitä tuo prosentti oikeastaan kertoo. Ero on itse asiassa valtava. 99 % saatavuusprosentti merkitsee, että yhteensä 88 tunnin ajan vuodessa palvelu ei ole käytettävissä, siis esim. vartin käyttökatkosta vuoden jokaisena päivänä. 99,999 % saatavuusprosentti taas merkitsee lupausta korkeintaan reilun viiden minuutin yhteenlasketuista käyttökatkoista vuodessa. Ero on tuhatkertainen! Pylväiden katkaisematta jättäminen siis vääristää tässä tapauksessa kuvion antamaa vaikutelmaa pahasti.

Edellä kuvattu on toki äärimmäinen poikkeustapaus. Yleisemmin voi sanoa, että kuvion tulee näyttää merkitykselliset erot riittävän suurina, että ne hahmotetaan oikein. Asteikon katkaisemista tulee pääsääntönä välttää, mutta jos katkaistu asteikko kuvaa ilmiötä paremmin kuin katkaisematon, silloin asteikko kannattaa katkaista. Asteikon katkaisemista datapisteiden keskeltä tulee kuitenkin välttää jokseenkin aina.

 *) Esim. Macdonald-Ross, Michael 1977: How numbers are shown: a review of research on the presentation of quantitative data in texts. AV Communication Review 25:4, 259–409.

2 vastausta artikkeliin “Kill your darlings osa 1: Valekerroin”

  1. Jos tarkkoja ollaan, niin Tufte käsittelee valekerrointa esityksen ja datan _muutoksen_ suhteen. Yksittäisellä arvollahan ei voi olla valekerrointa ilman vertailukohtaa. Eli jos todellinen arvo johonkin toiseen verrattuna on kaksinkertainen, pitäisi näin olla myös esityksessä.

  2. Joo, tämä on otettu sellaisesta kontekstista jossa aiemmin on puhuttu siitä miten informaatiografiikka perustuu aina vertailtavuuteen. Yksittäinen suorakaide ei ole pylväskuvio, vaan kuvio syntyy vasta kun datapisteitä voi verrata toisiinsa. Tässä pätkässä se jää mainitsematta koska sitä osiota emme heitä kirjasta ulos. :)

Vastaa

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *