Sanapilvet ovat huonoa informaatiomuotoilua

Silmiini sattui tänään kiinnostava linkki Antti Poikolan Datajournalismi-Twitter-syötteessä. The New York Timesin Jacob Harris suomii Nieman Journalism Labin blogissa sanapilviä. Aihe on tärkeä ja ansaitsee huomiota.

Numerotiedon visualisointi on yleensä yksinkertaista, mutta laadullisen tiedon kuvallinen esittäminen on suurempi haaste. Tekstimassa josta puuttuu selkeä, vaikkapa tilastografiikan tuottamiseen soveltuva numerodata, tarjoaa raaka-aineet sanapilven luomiseen. Tarkemmassa katsannossa tämä visualisointitapa osoittautuu kuitenkin vakavasti puutteelliseksi.

Sanapilvi ei sinänsä ole uusi keksintö ja sillä on myös perustellut käyttökohteensa. Tälläkin sivustolla on käytössä asiasanapilvi (oikean laidan sivuvalikossa), jo 1990-luvulla yleistynyt verkkosivujen navigaatioelementti, joka antaa nopean yleiskuvan siitä, mitä aiheita sivustolla olevissa kirjoituksissa käsitellään. Wordlen kaltaiset palvelut ovat viime vuosina tehneet sanapilvien tekemisestä mistä tahansa tekstidatasta helppoa ja ne ovatkin yleistyneet räjähdysmäisesti. Asiasanapilven ja Wordle-sanapilven välillä on kuitenkin olennaisia eroja. Harris mainitsee kirjoituksessaan mm. sen seikan, että mekaanisesti tekstistä tuotettu sanapilvi antaa helposti väärän käsityksen todellisista sisältöpainotuksista. Jos esimerkiksi sanat palautetaan perusmuotoihinsa kuten yleensä tehdään, verbi-ilmaisut kuten ”kannatan” ja ”en kannata” palautuvat samaan muotoon ”kannattaa”, vaikka ne merkitsevät täysin vastakkaista asiaa. Asiasanat taas ovat kirjoittajien harkitusti määrittelemiä. Tietyllä asiasanalla merkityt artikkelit yleensä todellakin käsittelevät nimenomaan tuota aihetta, kun taas sama sana artikkelitekstistä mekaanisesti poimittuna ei vielä kerro juuri mitään. Ja kun jonkinlainen navigointi asiasanoja hyödyntäen joka tapauksessa tarvitaan, on mielekästä visuaalisesti korostaa käytetyimpiä asiasanoja, jotka luultavasti kiinnostavat blogin lukijoitakin keskimärin enemmän, ovathan ne kiinnostaneet kirjoittajiakin muita aiheita enemmän.

Harris summaa jutussa varsin hyvin monia sanapilvien keskeisiä ongelmia, mutta otan tässä esiin vielä yhden seikan jota hän ei mainitse. William Cleveland ja Robert McGill (1984) ovat määritelleet kymmenen alkeishavaintoaihetta, eräänlaista visuaalista koodaustapaa, joiden avulla tietoa visuaalisista esityksistä luetaan. Wordlen tuottamat sanapilvet (hieman toki käyttäjän valinnoista riippuen) vaikuttavat ensi silmäyksellä käyttävän näistä seuraavia: sanojen sijainti kuviossa, niiden pituus, (luku-) suunta, pinta-ala ja väri. Tarkemmin katsoessa huomataan kuitenkin että todellisuudessa vain sanojen pinta-ala esittää relevanttia tietoa. Elementtien pituus riippuu niiden esiintyvyyttä enemmän sanan merkkimäärästä ja muut näistä tekijöistä vaihtelevat täysin satunnaisesti. Visualisointi joka voisi esittää viiden eri muuttujan arvot esittääkin siis vain yhden. Tämä ei ole ainoastaan potentiaalin haaskausta, vaan myös suorastaan haitallista. Kyseessä on ns. red herring -virhe, jossa katsojan huomio ohjataan vääriin asioihin ja kuormitetaan havaintoa epärelevantilla informaatiolla.

Sanapilviä parempi tapa tekstimassojen havainnollistamiseen on verkostovisualisointi, joka näyttää sanojen esiintyvyyden lisäksi myös niiden keskinäisiä suhteita ja tuo näin huomattavasti syvempää sisällöllistä tietoa esiin. Hyvä työkalu tähän tarkoitukseen on esimerkiksi avoimen lähdekoodin Gephi. Mutta mikään automatisoitu työkalu ei korvaa kunnianhimoista toimituksellista työtä, jossa merkitys tekstistä kaivetaan esiin The New York Timesin tapaan toimittajien erityisosaamista hyödyntäen.

Yksi vastaus artikkeliin “Sanapilvet ovat huonoa informaatiomuotoilua”

Vastaa

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *