Visualisointitutkija Robert Kosara summaa blogissaan aika kattavasti, mitä uutta tiedon visualisoinnissa tapahtui vuonna 2011 ja mitä on luvassa vuodelle 2012.
Kirja-arvio: Willard C. Brinton – Graphic methods for presenting facts

Willard C. Brinton: Graphic methods for presenting facts (The Engineering Management Company, 1914. 371 sivua.)
* * *
(Lainaukset kirjasta allekirjoittaneen vapaita suomennoksia.)
Graphic methods for presenting facts on ensimmäinen englanninkielinen informaatiomuotoilun yleisteos (vaikka tuota sanaa ei toki vielä kirjan julkaisuaikaan käytettykään). Spesifimpiä aiheita käsitteleviä teoksia oli tietysti julkaistu myös englanniksi jo aiemmin ja varsinkin ranskalaiset olivat jo 1800-luvun puolella tuottaneet jo laajoja yleisesityksiäkin tiedon visualisoinnin kentästä (esim. Étienne-Jules Marey: La Méthode graphique, 1878). Brinton erosi edeltäjistään paitsi kielen, myös näkökulman osalta. Hänen missionaan oli tuoda tiedon visualisointi tieteen ja tekniikan maailmasta myös yrityselämään ja politiikkaan.
Brintonin kirja on samaan aikaan sekä tiedon visualisoinnin myyntipuhe (esim. s. 2: ”Jos tosiasioita ei esitetä selkeästi ja kiinnostavasti, ne ovat jokseenkin yhtä vaikuttavia kuin äänilevy ilman levysoitinta.”) että varsin käytännönläheinen ”tee näin” -opas. Monilta osin se on kestänyt aikaa varsin hyvin. Voisi sanoa, että tietyssä mielessä liiankin hyvin. Sadassa vuodessa hyvien suunnitteluperiaatteiden tuntemus tuntuu lisääntyneen yllättävän vähän. Samat perusvirheet joista Brinton kirjoittaa, kuten pituuden ja pinta-alan sotkeminen keskenään, ovat edelleen valitettavan yleisiä. ”Graafinen vertailu tulisi tehdä vain yhden ulottuvuuden mukaan jos se vain on mahdollista.” (s. 22) Tätä ei voi liikaa takoa suunnittelijoiden päähän. Valitettavan tutulta kuulostaa myös: ”Ketä hyvänsä meistä pidettäisiin hulluna eikä suinkaan nerona, jos hän yrittäisi keksiä aivan uusia sääntöjä englanninkieliseen ilmaisuun ja luoda tekstiinsä täysin ennenkuulumattoman sanajärjestyksen. Silti monet toimivat melko lailla tähän tapaan koittaessaan kehittää jonkin uuden ja oudon graafisen esittämisen tavan.” (s. 361)
Jatka lukemista ”Kirja-arvio: Willard C. Brinton – Graphic methods for presenting facts”
HRI-visualisointiblogi
Helsinki Region Infoshare (HRI) julkaisi tänään visualisointibloginsa. Informaatiomuotoilu.fi-porukkakin on päässyt parrasvaloihin videot-osiossa, jossa on kolme Stadi.tv:n tuottamaa videota Open Data Kitchen -workshopistamme Amsterdamin PICNIC-festivaalilta syyskuulta. :) Jäämme suurella mielenkiinnolla odottamaan tulevia sisältöpäivityksiä! Jo nyt varsinkin osio visualisointityökaluista on erinomaisen hyödyllistä sisältöä.
Pientä napinan aihetta tulee taas kerran siitä, että tiedon visualisointia ei blogin sisällöissä kunnolla ole erotettu datataiteesta. Hieman hassusti nimetyssä Visualisointiesimerkkejä-osiossa olevat henkilöesittelyt sisältävät mm. Aaron Koblinin joka aivan selvästi on (erittäin kiinnostava) taitelija eikä visualisti, sekä Tatjana Plahovan, jonka tuotanto myös määrittyy enemmän visuaalisen näyttävyyden kuin tiedonvälityksellisten kysymysten kautta. (Jos datataiteen ja tiedon visualisoinnin ero askarruttaa, Robert Kosara määrittelee sen aika näppärästi.)
Tästä kauneusvirheestä huolimatta voi sanoa, että kokonaisuutena HRI-visualisointiblogi vaikuttaa hyvin kiinnostavalta avaukselta. Sisältö on verrattain hyvin toimitettua ja HRI:n laaja toimintakenttä ja kontaktiverkosto taannee sen, että blogiin saadaan kiinnostavaa sisältöä vastaisuudessakin.
Käsittämättömän kuvaaminen
Teksti on julkaistu lyhennettynä Grafia-lehdessä.
Informaatiomuotoilun voima on asioiden näyttäminen niiden todellisissa mittasuhteissa. Se on verrattain helppoa silloin, kun esitettävät asiat ovat jollain tavalla katsojan arkikokemukseen verrattavia, mutta usein näin ei ole. Valaisivimmat näkemäni esitykset ovat onnistuneet voittamaan käsityskyvyn rajoitukset ja antaneet realistisemman näkökulman asioihin kuin pelkät asiantuntijoiden selitykset.
Kuten tästä dvice.comin kuvasta näkyy, kuuluisan Virgin Galacticin avaruuskoneen lentokorkeus peittoaa saman sarjan kilpailijat, mutta on mainettaan mitättömämpi ainakin verrattuna valtiollisten ohjelmien saavutuksiin.
Yleisimmät vaikeaa mittakaavaa käyttävät esitykset liittyvät avaruuden sijaan tavalla tai toisella talouteen. Vuoden 2008 velkakriisin laajetessa syntyi joukko huonoja uutisia. Niiden myötä ilmestyi uutisiin lukumääriä, jotka ovat satoja kertaluokkia suurempia kuin mitä arkielämässä yleensä kohtaa. Kuukausien sisällä päätettiin satojen miljardien dollarien suuruisten rahamäärien kohtalosta. Pelastuspakettien vastustajat Yhdysvalloissa käyttivät pitkiä puheenvuoroja, jotka vilisivät lukusanoja, joita yleensä käytetään vain tähtitieteessä. Niillä ei kuitenkaan ollut samaa selittävää voimaa kuin hyvillä visualisoinneilla, jotka laittoivat luvut oikeaan asiayhteyteen. Lukijan on helpompi hahmottaa vuoden aikana talouteen kaadetun rahan määrä, kun koko paketti on eritelty ja laitettu vierekkäin maan suurimpien menoerien kanssa kahden vuosisadan ajalta. Tällainen visualisointi on tehokasta ja puhuttelevaa sisältöä ja vaatii suunnittelijalta samaa vastuuta kuin toimittajalta.
Vaikka esitys saisi olla visuaalisesti hiotumpi, se auttaa hahmottamaan elvytyspaketin suuruutta. Kuva ei aivan ehtinyt Bailout Nation -kirjan kovakantiseen painokseen, mutta se osoittaa tekijöidensä kyvyn esittää asiat ymmärrettävässä asiayhteydessä.
Toinen ihmiselle vaikeasti hahmottuva asia on todennäköisyys (tähän lottoamisenkin suosio perustuu). Olemme luonnostamme taitamattomia arvioimaan harvinaisten tapahtumien todennäköisyyksiä. Seuraavanlaisia kuvia voisi jakaa kaikille luulotautisille ja kroonisesti pelokkaille.
(klikkaa päästäksesi suurempaan versioon)
Hyvän viestinnän ohjeen mukaan ihmisen havaintokyky on kaventuva ja tarkentuva: havaitsemme suuripiirteisesti laajoja kokonaisuuksia ja niiden pienempiä osasia yksityiskohtineen, mutta emme kumpaakin yhtä aikaa. Kirjoittajalle tämä tarkoittaa, että uudet asiat esitellään aloittamalla yleisistä piirteistä ja päätymällä lopulta yksityiskohtiin. Informaatiomuotoilussa sama johdattelu tehdään käyttämällä kuvan sisäistä visuaalista kielioppia. Siinä yleinen taso on se, jonka lukija huomaa ensinäkemältä. Se määrittää mittakaavan ja esitettävän tiedon eri tyypit. Yksityiskohtaisin taso näyttää tarkimman tiedon, jonka parhaassa tapauksessa voi suhteuttaa saumattomasti kuvan muihin osiin. Pelkkä datatiheys ei tee kuvasta arvokasta, sillä ilman yhdistäviä vinkkejä se on vain tiedon saareke. Edellä näytetyissä esimerkeissä johdattelu yleisen ja yksityisen välillä tapahtui yksinkertaisesti visualisoimalla luvut eri asiayhteyksiin. Saman voi tehdä monipolvisesti, kuten itse kokeilin tässä puretussa aikajanassa, joka havainnollistaa geologisen ajan jakotapaa:
(kuva suurenee klikkaamalla)
Harmittavan yleinen tapa graafikoilla on tekstin välttäminen informaatiomuotoilussa. Ehkä kyse on liiasta itsevarmuudesta (tai turhamaisuudesta). Tekijä luottaa kuvakerrontansa vahvuuteen niin paljon, että tekstin käyttäminen tuntuu luovuttamiselta. Ehkä kyseessä on myös jonkinlainen tiedostamaton reviirijako kuvittavan ja kirjoittavan väen välillä. Joka tapauksessa on harvoin mitään oikeaa syytä olla käyttämättä tekstiä osana esitystä. Uudet asiat on joka tapauksessa avattava sanallisesti, ja parhaiten se onnistuu kun selitys on osa kuvitusta. Typografian hierarkiaa luovat keinot ovat kuvallisia kerrontatapoja muiden rinnalla.
Kun visuaalinen kielioppi on johdonmukainen ja helppo hahmottaa, sitä voi jatkaa eri mittakaavojen lisäksi eri kuviin. Kun samaan raamiin laadittuja kuvallisia tietokokonaisuuksia järjestetään kuvasarjaksi, niitä vertaamalla voi nähdä pieniäkin muutoksia lukumäärien ja muiden arvojen välillä. Edward Tufte käyttää näistä nimitystä small multiples, toistokuvio. Tämän keinon vahvuus vaikeasti hahmotettavien asioiden kuvaamisessa on sen kyky kertoa muutoksen laatu ja määrä hyvin tarkasti. Tällaiset esitykset näyttävät sommittelunsa puolesta hieman sarjakuvilta, ja niissä toimii lukemisen johdattelun kannalta pitkälti sama logiikka. Tufte on sitoutunut pelkistettyyn ja hienovaraiseen esittämiseen ja perustelee mieltymyksensä hyvin, mutta sarjakuvakerronnan keinoilla olisi paljon annettavaa informaatiomuotoilulle. Etenkin aikasarjaan järjestetyissä kuvissa sarjakuvateoreetikko Scott McCloudin ohjeet ruutusommittelusta tekisivät esityksistä parempia. Ne ovat yhtä avartavaa luettavaa kuin mikä tahansa informaatiomuotoilun teorian klassikoista, mutta ikävä kyllä yhtä huonosti saatavilla suomeksi. Hänen nettisivunsa ovat kuitenkin hyvää luettavaa kaikille graafikoille. McCloud jakaa ruutuvaihdosten tyypit kuuteen luokkaan riippuen ajallisen ja tilallisen muutoksen määrästä ruutujen välillä. Hetkestä hetkeen tapahtuva muutos on näistä välittömin, kun taas suurin muutos vaihtaa kohtauksen tapahtumapaikan ja -ajan täysin. Mikään teoria ei tietenkään korvaa kokeneen suunnittelijan visuaalista rytmitajua, mutta ruutukerrontaan liittyy yllättäviä ja helppotajuisia lainalaisuuksia, joita avataan lyhyesti kirjassa Sarjakuva – näkymätön taide.
Tilastografiikassa mitta-asteikon yhdenmukaisuus on selkeyden kulmakivi. Siitä tulee kuitenkin rasite, kun esitetään yhdessä kuvassa täysin eri kertaluokkien lukuja. Tällaisiin tarkoituksiin ei ole sellaisia valmiita ratkaisuja, joita muut kuin asiantuntijat osaisivat lukea. Tämä ei estä hyvää tarkoittavia valistajia yrittämästä. Välillä suurelle yleisölle tarkoitettuihin julkaisuihin eksyy jopa tilastokuvia, joissa käytetään logaritmista asteikkoa. Ne kertovat tekijöiden oppineisuudesta, mutta harvoin avaavat sisältöä lukijalle. Eri mittakaavojen asioita vertailtaessa onkin välillä luovuttava yhtenäisestä mitta-asteikosta. Rinnastus on silti mahdollista, jos muut kuvalliset mittarit ovat yhtenäiset. Väri on tässä yleinen apu, samoin kuin typografinen hierarkia. Isotype-kuvista tutut yksikkösymbolit ovat myös tapa kuvata lukumääriä vertailukelpoisesti. Kun jokainen symboli on suunniteltu hyvin skaalautuvaksi, rinnastettavilla kuvilla voi olla suurikin määrällinen ero. Mittakaavaongelman ratkaisemiseksi osiin purettu kuva vie usein enemmän tilaa ja esittää edelleen saman datamäärän, mutta tiheyden menetystä korvaa sen saama kerronnallinen arvo. Vaikka infokuvan ei pidäkään olla kuvitusta, tällaiset koostetut esitykset ovat usein esteettisestikin kiinnostustavia.
Vaikeasti hahmotettavien asioiden tulkitsemisessa kuviksi pelkät äärimmäiset mittakaavat eivät ole ainoa ongelma. Suunnittelijan oma ymmärrys aiheesta on kapein pullonkaula. Parhaissa esityksissä tekijä on hankkinut vähintään perustiedot aiheesta ennen kuvan luonnostelua, mikä näkyy oivaltavina ja genren rajoja rikkovina ratkaisuina. On parempi, että aineistoon perehtyy graafinen suunnittelija kuin että kuvan tekisi visuaalisuuteen perehtymätön aiheen asiantuntija. Moni tärkeä uutinen on joka tapauksessa vaikea käsittää, ja hyvä kuva avaa sen sisällön tavalla, johon pelkkä teksti ei kykene.
Helsinki Public Transport Visualized
Apps4Finland-kilpailun visualisointisarjan voitti odotetusti Lauri Vanhalan Helsinki Public Transport Visualized -animaatio. Toteutukseltaan työ oli selvästi sarjan paras, mutta sisällöllisesti huomattavasti rikkaampia esityksiä olisi kilpailussa riittänyt (esim. Suomen kansantaloudellinen elämänpuu, busbus, Seismi ja Budjettikone). Informaatiomuotoilu.fi-porukasta kellään ei ollut kilpailussa töitä mukana, mutta ehkä ensi vuonna sitten! ;)
Kaikki kunnia Laurille, animaatio on upeasti toteutettu ja esimerkiksi täysin allekirjoittaneen teknisten taitojen yläpuolella. Hauskassa kiitospuheessa palkintojenjakogaalassa kuultiin myös kuinka paljon työtä ja sitkeyttä esityksen valmiiksi saattaminen vaati. Mutta mielestäni esityksen täysi potentiaali ei toteudu. Video on selkeästi tehty visuaalisen näytävyyden ehdoilla ja siinä se onnistuu upeasti. Mutta tiedonvälitystehtävässään se ei onnistu yhtä hyvin. Animaation tuottamiseen on vaadittu valtava määrä dataa, mutta kuinka suuri osa tuosta datasta välittyy katsojalle asti?
Jos kysyy itseltään videon katsottuaan, mitä nyt tietää jota ei vielä kolme minuuttia sitten tiennyt, vastaus on valitettavasti, ettei kauhean paljon. Helsingin sisäänajotiet ehkä hahmottuvat animaatiosta kiinnostavasti jos niitä ei entuudestaan tunne. Mutta liikenteen määrä näytetään vain muutamalta aamun ensimmäiseltä tunnilta, eli ajallista vertailua koko vuorokauden kaarella ei pääse tekemään ja jo animaation lopussa liikennemäärät ovat niin suuria, ettei eroja esimerkiksi tasaisen kirkkaina hehkuvien eri pääväylien välillä erota. Videon tarkkuus ei oikein riitä koko pk-seutua kuvaavan näkymän yksityiskohtien hahmottamiseen ja lähikuvat taas jäävät irrallisiksi kun ei helposti hahmota, edes että mistä päin kaupunkia ne ovat. Värikoodaus ei erottele busseja raitiovaunuista eikä metroa paikallisjunista.
Joka tapauksessa Helsinki Public Transport Visualized on palkintonsa ansainnut. Ja hatunnoston todella kansainvälisen tason visualisoinnista, joita Suomessa ei ole montaa vielä nähty. Toivon kuitenkin, että projekti ei pääty palkinnon saamiseen, vaan jo tehtyä työtä hyödynnettäisiin vahvemmin tiedonvälityksellisiä arvoja korostavien lisävisualisointien tuottamiseen. Lähes kaikki tarvittavat palikat ovat valmiina, joten suhteellisen pienillä muutoksilla esityksestä saisi näyttävän ja informatiivisen.
Käytettävät katukyltit
Epäilen, etten ole ainut joka vieraassa kaupungissa on onnistunut kadottamaan täysin käsityksensä ilmansuunnista ja kävellyt satoja metrejä väärää katua väärään suuntaan. Erityisen helposti näin käy kun on saapunut paikalle metrolla, joka on aivan erityisen omiaan suuntavaiston sekoittamiseen. Tilannetta pahentavat usein lisäksi huono kartta ja puutteelliset opasteet – ei ole tavatonta että joutuu kävelemään pitkään ennen kuin löytyy edes järjellinen katukyltti.
Vielä hankalampaa on löytää joku tietty katunumero. Numerointikäytäntö tunnetusti vaihtelee maiden ja kaupunkienkin välillä. Oikean numeron löytäminen ja niiden järjestyksen hahmottaminen ei aina ole helppoa. (Helsingissä uusien katujen numerointi noudattaa seuraavanlaista logiikkaa: ”numerot kasvavat etelästä pohjoiseen ja idästä länteen tai liikenteen päätulosuunnasta lukien siten, että parittomat numerot ovat oikealla ja parilliset vasemmalla puolen katua.” Käytäntö on vaihdellut eri aikoina, eikä kaikkien vanhempien katujen numerointi vastaa tätä.) Tämä synnyttää informaatiomuotoiluhaasteen: onko mahdollista suunnitella sellainen katukyltitys, että suuntansa kadottanut löytää itsensä helposti kartalta niiden avulla? Tai vielä mieluummin: kaupunki, joka on itsessään niin ”luettava”, ettei karttaa välttämättä edes aina tarvita entuudestaan tuntemattomassa paikassa suunnistaessakaan.
Asiaa on helppo pitää yhdentekevänä, koska gps-paikantimella ja karttaohjelmistolla varustetut älypuhelimet ovat nykyisin verrattain yleisiä. Toistaiseksi datasiirron kustannukset kuitenkin rajoittavat niiden käyttöä ulkomailla – jossa pahimmat harhailut yleensä tapahtuvat. Henkilökohtaisesti olen myös sitä mieltä, että helposti hahmotettava kaupunki on parempi ratkaisu kuin edellyttää ihmisten suunnistavan gps-laitteiden varassa.
Kävin äskettäin Shanghaissa, joka on Kiinan suurin ja nopeimmin kehittyvä metropoli. Kaupungissa on parhaiten toimiva katukyltitys, jota olen missään nähnyt. Lähes jokaisessa risteyksessä on selkeä ja näkyvä kyltti, jossa lukee kadun nimi kiinaksi ja latinalaisin kirjaimin, pinyin-järjestelmän mukaisesti translitteroituna:
Tämän lisäksi joka kylttiin on myös merkittu kadun ilmansuunnat. Tämä varsin oivaltava ratkaisu, ottaen huomioon että pahimmat suunnistusvirheet tuntuvat johtuvan nimenomaan ilmansuunnissa sekaantumisesta. Jokaisessa nimikyltissä lukee myös kyseisen korttelinpätkän katunumerot, mikäli sellaisia on. (Myös itse taloihin numerot on merkitty yhtenäisesti ja johdonmukaisesti). Koska Shanghaissa on useita erittäin pitkiä katuja, numerotieto on varsin hyödyllinen. Helpottavaa on myös että pitemmät kadut on jaettu kolmeen osaan (mallia läntinen, keskimmäinen ja itäinen, esim. ”复兴东路 / Fuxing Rd. (E)”). Päättyvä katu on merkitty punaisella ympyrällä.
Katukylttien perinpohjainen ja onnistunut toteutus (”chinglishiä” kylteissä ei näy lainkaan) oli osa kaupungin ponnisteluja sen valmistautuessa Expo 2010-maailmannäyttelyyn. Maailmannäyttely on siis nähtävästi tuottanut pysyvääkin hyötyä kaupungin kehitykselle. Yhdistettynä mittavaan, tehokkaaseen metrojärjestelmään (jonka opaskartta verrattain toimivasti hyödyntää tuttua Lontoon metron karttakaaviota esikuvanaan) kyltitys tekee suunnistamisen valtavassa kaupungissa huomattavan yksinkertaiseksi. Koko kaupungista on näin tehty luettava.
Sanapilvet ovat huonoa informaatiomuotoilua
Silmiini sattui tänään kiinnostava linkki Antti Poikolan Datajournalismi-Twitter-syötteessä. The New York Timesin Jacob Harris suomii Nieman Journalism Labin blogissa sanapilviä. Aihe on tärkeä ja ansaitsee huomiota.
Numerotiedon visualisointi on yleensä yksinkertaista, mutta laadullisen tiedon kuvallinen esittäminen on suurempi haaste. Tekstimassa josta puuttuu selkeä, vaikkapa tilastografiikan tuottamiseen soveltuva numerodata, tarjoaa raaka-aineet sanapilven luomiseen. Tarkemmassa katsannossa tämä visualisointitapa osoittautuu kuitenkin vakavasti puutteelliseksi.
Sanapilvi ei sinänsä ole uusi keksintö ja sillä on myös perustellut käyttökohteensa. Tälläkin sivustolla on käytössä asiasanapilvi (oikean laidan sivuvalikossa), jo 1990-luvulla yleistynyt verkkosivujen navigaatioelementti, joka antaa nopean yleiskuvan siitä, mitä aiheita sivustolla olevissa kirjoituksissa käsitellään. Wordlen kaltaiset palvelut ovat viime vuosina tehneet sanapilvien tekemisestä mistä tahansa tekstidatasta helppoa ja ne ovatkin yleistyneet räjähdysmäisesti. Asiasanapilven ja Wordle-sanapilven välillä on kuitenkin olennaisia eroja. Harris mainitsee kirjoituksessaan mm. sen seikan, että mekaanisesti tekstistä tuotettu sanapilvi antaa helposti väärän käsityksen todellisista sisältöpainotuksista. Jos esimerkiksi sanat palautetaan perusmuotoihinsa kuten yleensä tehdään, verbi-ilmaisut kuten ”kannatan” ja ”en kannata” palautuvat samaan muotoon ”kannattaa”, vaikka ne merkitsevät täysin vastakkaista asiaa. Asiasanat taas ovat kirjoittajien harkitusti määrittelemiä. Tietyllä asiasanalla merkityt artikkelit yleensä todellakin käsittelevät nimenomaan tuota aihetta, kun taas sama sana artikkelitekstistä mekaanisesti poimittuna ei vielä kerro juuri mitään. Ja kun jonkinlainen navigointi asiasanoja hyödyntäen joka tapauksessa tarvitaan, on mielekästä visuaalisesti korostaa käytetyimpiä asiasanoja, jotka luultavasti kiinnostavat blogin lukijoitakin keskimärin enemmän, ovathan ne kiinnostaneet kirjoittajiakin muita aiheita enemmän.
Harris summaa jutussa varsin hyvin monia sanapilvien keskeisiä ongelmia, mutta otan tässä esiin vielä yhden seikan jota hän ei mainitse. William Cleveland ja Robert McGill (1984) ovat määritelleet kymmenen alkeishavaintoaihetta, eräänlaista visuaalista koodaustapaa, joiden avulla tietoa visuaalisista esityksistä luetaan. Wordlen tuottamat sanapilvet (hieman toki käyttäjän valinnoista riippuen) vaikuttavat ensi silmäyksellä käyttävän näistä seuraavia: sanojen sijainti kuviossa, niiden pituus, (luku-) suunta, pinta-ala ja väri. Tarkemmin katsoessa huomataan kuitenkin että todellisuudessa vain sanojen pinta-ala esittää relevanttia tietoa. Elementtien pituus riippuu niiden esiintyvyyttä enemmän sanan merkkimäärästä ja muut näistä tekijöistä vaihtelevat täysin satunnaisesti. Visualisointi joka voisi esittää viiden eri muuttujan arvot esittääkin siis vain yhden. Tämä ei ole ainoastaan potentiaalin haaskausta, vaan myös suorastaan haitallista. Kyseessä on ns. red herring -virhe, jossa katsojan huomio ohjataan vääriin asioihin ja kuormitetaan havaintoa epärelevantilla informaatiolla.
Sanapilviä parempi tapa tekstimassojen havainnollistamiseen on verkostovisualisointi, joka näyttää sanojen esiintyvyyden lisäksi myös niiden keskinäisiä suhteita ja tuo näin huomattavasti syvempää sisällöllistä tietoa esiin. Hyvä työkalu tähän tarkoitukseen on esimerkiksi avoimen lähdekoodin Gephi. Mutta mikään automatisoitu työkalu ei korvaa kunnianhimoista toimituksellista työtä, jossa merkitys tekstistä kaivetaan esiin The New York Timesin tapaan toimittajien erityisosaamista hyödyntäen.
HS Openin satoa
Maanantainen HS Open tuotti kiinnostavia tuloksia, mutta osoitti taas kerran miten hankalaa homma visualisointien tekeminen on kun sekä data on vaihtelevan laatuista että työkalut hakevat muotoaan.
Informaatiomuotoilu.fi:n porukasta minä ja Tommi olimme mukana ja kuuluimme sattumoisin molemmat ryhmiin jotka askartelivat saman kysymyksen parissa: miten asuntojen hintapyynnöt korreloivat toteutuneiden kauppahintojen kanssa. Toisen ryhmän tuloksien pohjalta saatiin aikaiseksi kiinnostava artikkeli netti-Hesariin, jossa näkökulmaa on haettu myös kiinteistövälittäjältä ja aiheeseen perehtyneiltä tutkijoilta. Jutussa Helsingin kaupungin tietokeskuksen tutkija Henrik Lönnqvist kiinnittää aivan aiheellisesti huomiota datan yhteismitallisuuden ongelmiin. Oikotie-palvelusta saatu aineisto hintapyynnöistä on kattavaa, mutta sen sijaan toteutuneista kaupoista saatu data ei ole. Omassa ryhmässäni mukana ollut toimittaja Tuomo Pietiläinen teki julkisuuslain mukaisen tietopyynnön tarkemman datan saamiseksi, mutta saa nähdä johtaako se mihinkään. Nyt jouduimme tyytymään ympäristöministeriön ja ARAn ylläpitämästä Asuntojen hintatiedot -palvelusta raavittuun aineistoon, joka on ladattavissa HS Next -blogista. Se kertoo kaupat vain kadun tarkkuudella vuoden ajalta yksilöimättä kaupankäyntiajankohtaa, minkä johdosta on melko mahdoton tehtävä yrittää katsoa millä hinnalla joku tietty asunto on mennyt kaupaksi.
Kaikkien hintapyyntöjen vertaamisessa kaikkiin toteutuneisiin kauppoihin on ilmeisiä ongelmia, jo siksi että toteutuneita kauppoja on aineistossa paljon vähemmän kuin hintapyyntöjä, joten hintapyynnöissä lienee mukana spekulatiivista kauppaa (myyntiin ei ole akuuttia tarvetta, mutta kokeillaan saisiko hyvän hinnan jos myisi) mikä on omiaan nostamaan hintapyyntöjen keskiarvoa. Tähän kuitenkin oli tyydyttävä. Omassa ryhmässäni aikomus oli tehdä jaotteluja asuntojen koon mukaan, mutta sitä ei tiukassa aikataulussa ehditty tehdä. Näin ollen esimerkiksi jos alueella on myynnissä monen kokoisia asuntoja, mutta kauppa on käynyt vain tietyn kokoisista asunnoista, keskimääräinen neliöhinta on voitu laskea hintapyynnöissä ja toteutuneissa kaupoissa ihan eri kokoisista kämpistä joka on jälleen omiaan vääristämään lopputulosta.
Itse kuuluin siis kolmihenkiseen ryhmään, jossa minun ja Pietiläisen lisäksi mukana oli vielä Seravon Otto Kekäläinen. Me taistelimme samojen aineisto-ongelmien kanssa kuin toinenkin ryhmä, mutta valitsemamme visualisointitapa, koropleettikartta, tuotti vielä lisää harmaita hiuksia. Datasta helposti saatava aluejako kun olisi postinumeroalueet, mutta niitä taas ei vaikuta löytyvän vektorina avoimella lisenssillä mistään. Karttakeskus kyllä myisi aineistoa ystävällisesti 922,50 euron hintaan. Helsinki Region Infosharen kautta saatavilla olisi pien-, suur- ja tilastoalueet vektorina, mutta jostain syystä postinumeroalueita ei tunnu löytyvän mistään. Loppujen lopuksi päädyimme hätäratkaisuna piirtämään käsipelillä alueet käsiinsaamamme jo hieman vanhentuneen kartan pohjalta, josta puuttui mm. Östersundomin alue. (Tulevaisuuden tarpeita ajatellen We Love Open Datan Martti Leppänen teki ansiokasta työtä laatimalla taulukon, jonka avulla postinumeroalueet voi sovittaa peruspiireihin. Ihan kaikkia ongelmia tämäkään ei toki ratkaise, mutta auttaa paljon.)
Kaikken tämän säädön vuoksi kävi sitten niin, että oma ryhmäni ei saanut oikein mitään valmista maanantaina. Viikon mittaan luppohetkinä on kuitenkin viimeistelty se työ joka maanantaina aloitettiin. Lopputulos, Nodeboxilla ja Illustratorilla työstetty koropleettikartta näyttää tältä:

Punainen väri ilmaisee, että toteutuneiden kauppojen keskimääräinen neliöhinta on hintapyyntöjä pienempi, vihreä taas että suurempi. Värin intensiteetti tai värikylläisyys kertoo kuinka paljon suurempi tai pienempi ja sen tummuus taas pyrkii ilmaisemaan tehtyjen kauppojen määrää, siten että tummemmilla alueilla kauppoja on tehty enemmän ja vaaleammilla vähemmän, ajatuksena siis että erotuksen merkitys on pienempi kuin kauppoja on tehty vain vähän, eli otos on pieni. Käytännössä tuli kuitenkin huomattua, että värin intensiteetti ja tummuus on aika hankala erottaa toisistaan ja asetuksia hieman peukaloimalla syntyy kovin erilaisia lopputuloksia kuten yllä olevasta kolmesta eri variaatiosta huomaa. Ongelmakohdaksi muodostui mm. 00160-postinumeroalue (Katajanokka), jossa kauppoja oli tehty hyvin vähän (18 kpl), mutta ero hinnoissa oli valtava (yli tuhat euroa neliöltä), tai toisaalta 00980-alue (Vuosaari), jossa kauppoja oli paljon (110 kpl), mutta hintaero verrattain pieni (n. 120 € neliöltä). Näistä kolmesta vaihtoehdosta ylin tuntuu ilmaisevan visuaalisesti parhaiten sen minkä numerodata kertoo, mutta sekään ei ole täysin tyydyttävä. Esimerkiksi Jollaksen 00850-postinumeroalue katoaa kartalta melkein kokonaan, koska siellä on tehty vain kolme järjestelmään tallentunutta asuntokauppaa. Tästä opin ainakin, että väriskaalan suunnitteluun kannattaa varata aikaa ja miettiä myös sen teknistä toteutusta. Nyt ratkaisuna oli muuttujien arvojen pyöräyttäminen suoraan HSB-värimallin arvoiksi pienin painotuksin, mutta paremmalta näin jälkikäteen ajatellen tuntuisi tehdä kaksiulotteinen ”liukuvärikartta” josta osa-alueiden värit sitten poimittaisiin.
Kysyn vielä Otolta, saako karttaan menneen raakadatan julkaista (se ei ole aivan täsmälleen sama kuin HS Next -blogissa julkaistu, koska se on raavittu hieman eri aikaan ja palvelua on ilmeisesti välissä päivitetty) ja jos saan myöntävän vastauksen, lisään sen tähän loppuun jos jollakulla on kiinnostusta katsoa millaisesta datasta kartta on muodostunut.
Datajournalismin päivä 29.9. Tampereella
Datajournalismin verkosto järjestää ensimmäisen Datajournalismin päivän Tampereella tämän viikon torstaina eli 29.9.2011. Päivän teemana on ”Kaupunkidata ja paikallisjournalismi – kuntavaalit 2012”. Olen mukana tapahtumassa tuuraamassa IBM:n Peter Bakia joka aikataulusyistä ei pääse paikalle. Pidän siis esityksen tiedon visualisoinnista, minkä lisäksi osallistun ”juttuakvaarioon” jossa yritämme saada päivän aikana tehtyä uutisia ja visualisointeja Tampereen ja Jyväskylän kaupunkien päätöksentekoaineistoista, eli kunnan eri toimielinten pöytäkirjoista yms.
Maksuttomaan tapahtumaan taitaa mahtua vielä muutama mattimyöhäinen osallistuja paikan päälläkin jos ilmoittautuu pikimmiten, mutta tapahtuma lähetetään myös suorana verkkolähtyksenä Bambuser-palvelun kautta.
Lisäys 11.10.2011: Esitys löytyy nyt myös videoituna verkosta.
Presentation: What is visualization?

In Finnish: Suomennamme tämän artikkelin myöhemmin blogia varten, tässä se on englanninkielisenä siinä muodossa kuin se esitettiin aiemmin tänään PICNIC-festivaalilla.
We were asked to do a short (20 min.) presentation about what visualization is and why it matters for Open Data Breakfast at PICNIC Amsterdam. You can download this presentation as a pdf here, annotated with the text of the presentation as comments, or if you prefer, read the full text below.
edit (September 27th 2011): The same presentation was given at the IBM Smarter Cities Challenge workshop at Aalto Design Factory yesterday, where it was recorded and is now viewable online:






