Informaatiomuotoilun sanasto, englanti–suomi

Olemme koostaneet tulevaa Informaatiomuotoilu-kirjaa varten sanastoa keskeisistä informaatiomuotoilun käsitteistä. Ongelmana on ollut, että suomenkielinen sanasto on ollut puutteellista, kirjavaa ja hajallaan useissa eri paikoissa. Olemmekin kirjaamme varten keränneet kirjallisuudesta ja sanakirjoista käännöksiä englanninkieliselle käsitteistölle ja tehneet lisäksi omaa, kohtuullisen mittavaakin sanaston käännöstyötä. Tämä työ on edelleen kesken, mutta olemme päättäneet yleisön pyynnöstä (sekä hyödyntääksemme pientä joukkoistamista) julkaista tämänhetkisen version sivustollamme: Informaatiomuotoilun sanasto, englanti–suomi.

Korostan vielä sanaston keskeneräisyyttä. Esimerkiksi linkit käsitteiden määritelmiin pyritään myöhemmin lisäämään mahdollisimman monen sanan kohdalle. Joka tapauksessa otamme jo nyt mielellämme vastaan palautetta sekä täydennys- ja korjausehdotuksia. Niitä voi lähettää meille suoraan sähköpostitse (etunimi@informaatiomuotoilu.fi), lisätä kommentteina tämän viestin perään tai sitten kommentoida suoraan sanastodokumenttia Google Drivessä. Kaikenlainen palaute on tervetullutta! Sanasto kattaa tällä hetkellä tilastografiikan käsitteistön kohtuullisen hyvin, mutta kartografian ja esimerkiksi käyttöliittymäsuunnittelun osalta puutteita on vielä paljon ja niiden osalta apu on tervetullutta. Lisäksi palautetta nykyisestä sisällöstä otamme vastaan mieluusti. Ovatko nyt esitetyt käännökset mielekkäitä? Onko jokin ristiriidassa vakiintuneen terminologian kanssa? Onko yksi iso aakkosellinen luettelo järkevä toteutustapa vai pitäisikö lista jakaa esimerkiksi erillisiin tilastografiikan, kartografian jne. sanastoihin? Puuttuuko lähteistämme joitain merkittäviä teoksia?

 

A little tool for making pictorial unit charts in Illustrator

Pictorial unit charts, like the ones Isotype made famous, is a nice alternative to conventional bar or area diagrams. However, actually making them if you’re working in Illustrator can require a good deal of handiwork and you might easily end up with the wrong amount of little guys when copying and pasting.

To make desinging pictorial unit charts a bit simpler I ended up writing a little snippet of JavaScript code that works with the neat Illustrator plugin Scriptographer. We decided to share it here, as some of our readers might find it useful.

Download unitsymbol-copy_selected.js here. When you first start Scriptographer, you will be presented with a dialogue window asking you to choose a folder for your own scripts. Put unitsymbol-copy_selected.js in that folder, so that Scriptographer can find it. Note that this is a very quickly made tool without much finesse, so feel free to improve! Anyhow, here’s how it works:


1. First you select a shape or symbol that you want to multiply (it also works with groups). I find working with Illustrator’s symbols to be very useful, since then it’s easy to change all individual instances of the same symbol at once when you update your unit figure after making a hundred copies.

2.Choose the script in the Scriptographer panel and press the play button to activate it. If you want to have a look at the code, just double-click the name of the script.

3. A dialog called Parameters appears. Here you set the number of columns and copies of the symbol (the value you will visualize). X- and Y-spacing are measured in points from the bounding box of the symbol, so if you want  squares of 10 pt with 2.5 pt spacing between them you input 2.5 in the X- and Y-spacing fields.

Press create and you’ll see the specified amount of copies appear next to your original ‘source’ symbol.

Todos concerning the usability would be to have it accept different units for the spacing, and maybe it should also to give a choice of where to place the symbols. If one would want to make it really clever one would make it possible to update the parameters of created charts, but I suspect that might require writing a whole new plugin, so that’ll be something for another day.

Parhaat visualisointityökalut yhteen paikkaan koottuna

Interactive Things -suunnittelutoimiston ylläpitämä Datavisualization.ch-blogi on tuottanut erinomaisen koosteen parhaista tarjolla olevista ilmaisista visualisointityökaluista. Listassa on niin javascript-kirjastoja (esim. D3.js, Kartograph), online-työkaluja (Many Eyes, Google Fusion Tables) kuin täysiverisiä ohjelmointiympäristöjä (Processing, Nodebox) ja -kieliäkin (R). Luettelo on hyvin kuratoitu: siinä on mukana kaikki työkalut, jotka itsekin olisin nostanut, eikä ainakaan äkkiseltään silmään sattunut mitään puolivillaisia viritelmiä. Kaikki valikoiman minulle entuudestaan tutut poiminnat ovat oikeasti käyttökelpoisia ja lisäksi on jokunen uusi, kiinnostavan oloinen tuttavuus.

Käsityönä Illustratorissa tai vastaavassa ohjelmassa kuvioita puunaamalla pystyy toteuttamaan vain osan kaikista niistä mahdollisuuksista, joita tiedon visualisointi tarjoaa. Siksi myös graafisten suunnittelijoiden ja journalistien olisi hyvä ottaa ainakin alkeistasolla haltuun ohjelmointipohjaisia työkaluja. Datavisualization.ch:n kuratoiman listan työkaluista monet (valitettavasti eivät kaikki) on suunniteltu tietoisesti niin helppokäyttöisiksi, että myös taidekoululainen ja humanisti niitä oppivat käyttämään. Kannattaa tutustua ennakkoluulottomasti.

Lisää Open Data Kitchen -videoita

HRI:n visualisointiblogi julkaisi vielä pari videota lisää taannoisesta Open Data Kitchenistä. Näissä äänessä ovat Informaatiomuotoilu.fi:n lisäksi We Love Open Datan Miska sekä mm. Pikseliähky-festarista tuttu Juha Huuskonen. Ensimmäisessä videossa puhutaan avoimen datan visualisoinnista yleisemmällä tasolla ja tässä toisessa spesifimmin siihen käytetyistä työkaluista. Videotuotanto on, tuota, hieman karu (ei, silmäni eivät oikeasti ole noin turvoksissa :D), mutta mielestäni sisältävät ihan mielenkiintoista jutustelua, jos aihe sattuu kinnostamaan.

Tietosivu kaupunginosista

Helsingin kaupungin tietokeskuksella on varsin paljon dataa Helsingistä kaupunginosien tasolla. Yksittäisistä taulukoista tai edes Tilastollisesta vuosikirjasta ei kuitenkaan ole aina helppoa hahmottaa kokonaiskuvaa yksittäisistä kaupunginosista. Siksi päätimme viime viikonlopun Open Data Kitchenissä yhdessä Janne Aukian ja We Love Open Datan kanssa tehdä pienen työkalun, jonka avulla voi luoda tietosivuja kaupunginosadatasta.

Työkalu ei ole valmis, mutta se on toimiva prototyyppi jolla pystyy visualisoimaan erilaista dataa kaupunginosista, kunhan se on ensin käsitelty sopivasti muotoilluiksi csv-tiedostoiksi. Mielenkiintoinen jatkokehitysmahdollisuus työkalulle olisi esimerkiksi verkkopohjainen versio, jonka avulla kävijä voisi tulostaa tai jakaa valitsemansa dataa omasta kaupunginosastaan.

Projekti on rakennettu Nodeboxilla ja on ladattavissa kokonaisuudessaan Githubista: https://github.com/jaukia/odk-localdata.
Pdf-tulosteet kaikista kaupunginosista löytyvät täältä.

Kartta perustuu kaupungin avoimeen seutukarttaan, joka on Qgisin ja kml-to-svg-konvertterin avulla muutettu svg-muotoon.

English summary: We made a tool for creating local data sheets from Helsinki city district level data in collaboration with  Janne Aukia ja We Love Open Data. It is made in Nodebox  and is available on Github: https://github.com/jaukia/odk-localdata

Sanapilvet ovat huonoa informaatiomuotoilua

Silmiini sattui tänään kiinnostava linkki Antti Poikolan Datajournalismi-Twitter-syötteessä. The New York Timesin Jacob Harris suomii Nieman Journalism Labin blogissa sanapilviä. Aihe on tärkeä ja ansaitsee huomiota.

Numerotiedon visualisointi on yleensä yksinkertaista, mutta laadullisen tiedon kuvallinen esittäminen on suurempi haaste. Tekstimassa josta puuttuu selkeä, vaikkapa tilastografiikan tuottamiseen soveltuva numerodata, tarjoaa raaka-aineet sanapilven luomiseen. Tarkemmassa katsannossa tämä visualisointitapa osoittautuu kuitenkin vakavasti puutteelliseksi.

Sanapilvi ei sinänsä ole uusi keksintö ja sillä on myös perustellut käyttökohteensa. Tälläkin sivustolla on käytössä asiasanapilvi (oikean laidan sivuvalikossa), jo 1990-luvulla yleistynyt verkkosivujen navigaatioelementti, joka antaa nopean yleiskuvan siitä, mitä aiheita sivustolla olevissa kirjoituksissa käsitellään. Wordlen kaltaiset palvelut ovat viime vuosina tehneet sanapilvien tekemisestä mistä tahansa tekstidatasta helppoa ja ne ovatkin yleistyneet räjähdysmäisesti. Asiasanapilven ja Wordle-sanapilven välillä on kuitenkin olennaisia eroja. Harris mainitsee kirjoituksessaan mm. sen seikan, että mekaanisesti tekstistä tuotettu sanapilvi antaa helposti väärän käsityksen todellisista sisältöpainotuksista. Jos esimerkiksi sanat palautetaan perusmuotoihinsa kuten yleensä tehdään, verbi-ilmaisut kuten ”kannatan” ja ”en kannata” palautuvat samaan muotoon ”kannattaa”, vaikka ne merkitsevät täysin vastakkaista asiaa. Asiasanat taas ovat kirjoittajien harkitusti määrittelemiä. Tietyllä asiasanalla merkityt artikkelit yleensä todellakin käsittelevät nimenomaan tuota aihetta, kun taas sama sana artikkelitekstistä mekaanisesti poimittuna ei vielä kerro juuri mitään. Ja kun jonkinlainen navigointi asiasanoja hyödyntäen joka tapauksessa tarvitaan, on mielekästä visuaalisesti korostaa käytetyimpiä asiasanoja, jotka luultavasti kiinnostavat blogin lukijoitakin keskimärin enemmän, ovathan ne kiinnostaneet kirjoittajiakin muita aiheita enemmän.

Harris summaa jutussa varsin hyvin monia sanapilvien keskeisiä ongelmia, mutta otan tässä esiin vielä yhden seikan jota hän ei mainitse. William Cleveland ja Robert McGill (1984) ovat määritelleet kymmenen alkeishavaintoaihetta, eräänlaista visuaalista koodaustapaa, joiden avulla tietoa visuaalisista esityksistä luetaan. Wordlen tuottamat sanapilvet (hieman toki käyttäjän valinnoista riippuen) vaikuttavat ensi silmäyksellä käyttävän näistä seuraavia: sanojen sijainti kuviossa, niiden pituus, (luku-) suunta, pinta-ala ja väri. Tarkemmin katsoessa huomataan kuitenkin että todellisuudessa vain sanojen pinta-ala esittää relevanttia tietoa. Elementtien pituus riippuu niiden esiintyvyyttä enemmän sanan merkkimäärästä ja muut näistä tekijöistä vaihtelevat täysin satunnaisesti. Visualisointi joka voisi esittää viiden eri muuttujan arvot esittääkin siis vain yhden. Tämä ei ole ainoastaan potentiaalin haaskausta, vaan myös suorastaan haitallista. Kyseessä on ns. red herring -virhe, jossa katsojan huomio ohjataan vääriin asioihin ja kuormitetaan havaintoa epärelevantilla informaatiolla.

Sanapilviä parempi tapa tekstimassojen havainnollistamiseen on verkostovisualisointi, joka näyttää sanojen esiintyvyyden lisäksi myös niiden keskinäisiä suhteita ja tuo näin huomattavasti syvempää sisällöllistä tietoa esiin. Hyvä työkalu tähän tarkoitukseen on esimerkiksi avoimen lähdekoodin Gephi. Mutta mikään automatisoitu työkalu ei korvaa kunnianhimoista toimituksellista työtä, jossa merkitys tekstistä kaivetaan esiin The New York Timesin tapaan toimittajien erityisosaamista hyödyntäen.

HS Openin satoa

Maanantainen HS Open tuotti kiinnostavia tuloksia, mutta osoitti taas kerran miten hankalaa homma visualisointien tekeminen on kun sekä data on vaihtelevan laatuista että työkalut hakevat muotoaan.

Informaatiomuotoilu.fi:n porukasta minä ja Tommi olimme mukana ja kuuluimme sattumoisin molemmat ryhmiin jotka askartelivat saman kysymyksen parissa: miten asuntojen hintapyynnöt korreloivat toteutuneiden kauppahintojen kanssa. Toisen ryhmän tuloksien pohjalta saatiin aikaiseksi kiinnostava artikkeli netti-Hesariin, jossa näkökulmaa on haettu myös kiinteistövälittäjältä ja aiheeseen perehtyneiltä tutkijoilta. Jutussa Helsingin kaupungin tietokeskuksen tutkija Henrik Lönnqvist kiinnittää aivan aiheellisesti huomiota datan yhteismitallisuuden ongelmiin. Oikotie-palvelusta saatu aineisto hintapyynnöistä on kattavaa, mutta sen sijaan toteutuneista kaupoista saatu data ei ole. Omassa ryhmässäni mukana ollut toimittaja Tuomo Pietiläinen teki julkisuuslain mukaisen tietopyynnön tarkemman datan saamiseksi, mutta saa nähdä johtaako se mihinkään. Nyt jouduimme tyytymään ympäristöministeriön ja ARAn ylläpitämästä Asuntojen hintatiedot -palvelusta raavittuun aineistoon, joka on ladattavissa HS Next -blogista. Se kertoo kaupat vain kadun tarkkuudella vuoden ajalta yksilöimättä kaupankäyntiajankohtaa, minkä johdosta on melko mahdoton tehtävä yrittää katsoa millä hinnalla joku tietty asunto on mennyt kaupaksi.

Kaikkien hintapyyntöjen vertaamisessa kaikkiin toteutuneisiin kauppoihin on ilmeisiä ongelmia, jo siksi että toteutuneita kauppoja on aineistossa paljon vähemmän kuin hintapyyntöjä, joten hintapyynnöissä lienee mukana spekulatiivista kauppaa (myyntiin ei ole akuuttia tarvetta, mutta kokeillaan saisiko hyvän hinnan jos myisi) mikä on omiaan nostamaan hintapyyntöjen keskiarvoa. Tähän kuitenkin oli tyydyttävä. Omassa ryhmässäni aikomus oli tehdä jaotteluja asuntojen koon mukaan, mutta sitä ei tiukassa aikataulussa ehditty tehdä. Näin ollen esimerkiksi jos alueella on myynnissä monen kokoisia asuntoja, mutta kauppa on käynyt vain tietyn kokoisista asunnoista, keskimääräinen neliöhinta on voitu laskea hintapyynnöissä ja toteutuneissa kaupoissa ihan eri kokoisista kämpistä joka on jälleen omiaan vääristämään lopputulosta.

Itse kuuluin siis kolmihenkiseen ryhmään, jossa minun ja Pietiläisen lisäksi mukana oli vielä Seravon Otto Kekäläinen. Me taistelimme samojen aineisto-ongelmien kanssa kuin toinenkin ryhmä, mutta valitsemamme visualisointitapa, koropleettikartta, tuotti vielä lisää harmaita hiuksia. Datasta helposti saatava aluejako kun olisi postinumeroalueet, mutta niitä taas ei vaikuta löytyvän vektorina avoimella lisenssillä mistään. Karttakeskus kyllä myisi aineistoa ystävällisesti 922,50 euron hintaan. Helsinki Region Infosharen kautta saatavilla olisi pien-, suur- ja tilastoalueet vektorina, mutta jostain syystä postinumeroalueita ei tunnu löytyvän mistään. Loppujen lopuksi päädyimme hätäratkaisuna piirtämään käsipelillä alueet käsiinsaamamme jo hieman vanhentuneen kartan pohjalta, josta puuttui mm. Östersundomin alue. (Tulevaisuuden tarpeita ajatellen We Love Open Datan Martti Leppänen teki ansiokasta työtä laatimalla taulukon, jonka avulla postinumeroalueet voi sovittaa peruspiireihin. Ihan kaikkia ongelmia tämäkään ei toki ratkaise, mutta auttaa paljon.)

Kaikken tämän säädön vuoksi kävi sitten niin, että oma ryhmäni ei saanut oikein mitään valmista maanantaina. Viikon mittaan luppohetkinä on kuitenkin viimeistelty se työ joka maanantaina aloitettiin. Lopputulos, Nodeboxilla ja Illustratorilla työstetty koropleettikartta näyttää tältä:

Punainen väri ilmaisee, että toteutuneiden kauppojen keskimääräinen neliöhinta on hintapyyntöjä pienempi, vihreä taas että suurempi. Värin intensiteetti tai värikylläisyys kertoo kuinka paljon suurempi tai pienempi ja sen tummuus taas pyrkii ilmaisemaan tehtyjen kauppojen määrää, siten että tummemmilla alueilla kauppoja on tehty enemmän ja vaaleammilla vähemmän, ajatuksena siis että erotuksen merkitys on pienempi kuin kauppoja on tehty vain vähän, eli otos on pieni. Käytännössä tuli kuitenkin huomattua, että värin intensiteetti ja tummuus on aika hankala erottaa toisistaan ja asetuksia hieman peukaloimalla syntyy kovin erilaisia lopputuloksia kuten yllä olevasta kolmesta eri variaatiosta huomaa. Ongelmakohdaksi muodostui mm. 00160-postinumeroalue (Katajanokka), jossa kauppoja oli tehty hyvin vähän (18 kpl), mutta ero hinnoissa oli valtava (yli tuhat euroa neliöltä), tai toisaalta 00980-alue (Vuosaari), jossa kauppoja oli paljon (110 kpl), mutta hintaero verrattain pieni (n. 120 € neliöltä). Näistä kolmesta vaihtoehdosta ylin tuntuu ilmaisevan visuaalisesti parhaiten sen minkä numerodata kertoo, mutta sekään ei ole täysin tyydyttävä. Esimerkiksi Jollaksen 00850-postinumeroalue katoaa kartalta melkein kokonaan, koska siellä on tehty vain kolme järjestelmään tallentunutta asuntokauppaa. Tästä opin ainakin, että väriskaalan suunnitteluun kannattaa varata aikaa ja miettiä myös sen teknistä toteutusta. Nyt ratkaisuna oli muuttujien arvojen pyöräyttäminen suoraan HSB-värimallin arvoiksi pienin painotuksin, mutta paremmalta näin jälkikäteen ajatellen tuntuisi tehdä kaksiulotteinen ”liukuvärikartta” josta osa-alueiden värit sitten poimittaisiin.

Kysyn vielä Otolta, saako karttaan menneen raakadatan julkaista (se ei ole aivan täsmälleen sama kuin HS Next -blogissa julkaistu, koska se on raavittu hieman eri aikaan ja palvelua on ilmeisesti välissä päivitetty) ja jos saan myöntävän vastauksen, lisään sen tähän loppuun jos jollakulla on kiinnostusta katsoa millaisesta datasta kartta on muodostunut.