Hesarin pysäköintigrafiikka ja maailman alkeellisin virhe

Helsingin Sanomat kirjoittaa tärkeästä aiheesta, Helsingin pysäköintipolitiikasta. Artikkelin saatteena on ”interaktiivinen grafiikka” joka yrittää auttaa hahmottamaan tilannetta. Menemättä nyt siihen että minusta grafiikka ei ole kovin interaktiivinen (ainut interaktiomahdollisuus on Seuraava-napin klikkaaminen) ja että se on muutenkin hieman sekava, Hesari sortuu maailman alkeellisimpaan virheeseen eli pinta-alojen esittämiseen väärin.

Yllä on ruutukaappaus esityksen kohdasta, jossa yritetään havainnollistaa parkkipaikkojen viemää osuutta katutilasta (14 %). Pienen P-merkin pinta-ala on kuitenkin 1,4 %, ei suinkaan 14 % isomman ruudun pinta-alasta. Jos kokosuhde olisi oikein, grafiikka näyttäisi pikemminkin tältä:

Sama mittakaavavirhe toistuu esityksessä toisessakin kohtaa. Varsin kiusallista.

Malofiej – just wow!

Just returned home from Malofiej. What a week it has been! I’ll write a more detailed report (in Finnish) next week, but here are some quick thoughts on the event.

First of all: if you mostly work with information graphics, visualization, data journalism etc., you should go to Malofiej, even if you have no works you’d want to enter to the competition. The competition is only a part of it, albeit probably the most famous part. I personally didn’t enter any projects and quite a few other people I talked with were there likewise only, or at least mainly, because of the conference part. Of course the competition is important and the winners are well worth checking out, but for me the presentations by the judges and the networking opportunities were far more important.

(There’s actually a third part besides the conference and the competition: the Show, Don’t Tell! workshop. It is a masterclass type of three-day workshop for infographics professionals to perfect their skills under the guidance of the world’s top experts. I’d really want to take part in the workshop in the future, but this year I simply couldn’t find the time to do so and thus can’t say much about it. Seems it was a success, which is hardly surprising given the caliber of the teachers.)

All in all it was both a very intensive and a very rewarding experience. At first I was somewhat starstruck to be hanging around with all these people whose work I really admire and whose Twitter feeds and blogs I read for inspiration, but practically everybody I talked with seemed to be very down-to-earth and willing to politely listen to the at times incoherent ramblings of yours truly. I made many new friends and was really fascinated to hear informal behind the scenes stories of the daily grind at world class news organizations’ graphics desks. The sheer amount of all the informal goings-on around the main programme combined with some logistic problems (I ended up spending 21 h travelling from Helsinki to Pamplona due to a cancelled connecting flight) meant that I only catched maybe 15 h of sleep between early Tuesday morning when I left home and Saturday evening when I’m writing this post. Add to that the considerable amount of boozing involved, and my hot tip for next year is to rest well before coming to Malofiej and reserve some time after it for recuperation.

As for the conference programme itself, I must really congratulate the organizers for getting together such an interestingly diverse set of judges/speakers. All the presentations were interesting and the best ones were fantastic. Some themes spanning several presentations included the importance of sketching, programming vs. hand-crafting and different narrative formats (linear vs. nonlinear, the role of annotation etc.). More of these in a later post. The works shown were really interesting and showed a wide variety of themes and techniques, which was also great.

To list a few negative things I have to mention keeping schedules and translation. Some of the speakers kept within their alotted time very well, but some were more liberal in their use of time which is a bit unfair towards the other speakers. Basically all the talks were so interesting that they could have filled a longer time slot, but time is a limited resource so if one speaker goes overtime, someone else often needs to cut their presentation shorter. Not nice!

All the talks were either in English or in Spanish (except for one which was half in Spanish and half in Portuguese) and interpreted into the other language. The basic setup with wireless headphones worked reasonably well, but the translators had a hard time at least when translating to English. The impression I got was that something was lost in translation with all the non-English-language presentations. I think a part of the problem may be that the translators (I think there were two) were Spanish native speakers. It probably would work better if Spanish was translated  to English by a native speaker and vice versa. At least that’s how they usually do it in organizations like the EU.

I’ll write later more about the actual awards, but to quickly summarize I think all the gold medal winners certainly earned their prize. I’m slightly disappointed that NYTimes’ 512 Paths to White House didn’t win the Best in Show, but at least it got gold and the NYTimes’ sports piece about hurdles is very well worth the prize, too. Awarding the “best online map” to ProPublica’s StateFace font was an interesting move and certain to create a bit of controversy. The first ever medal (bronze) for a Finnish media was awarded to Hannu Kyyriäinen’s map of shrinking Palestine in Suomen Kuvalehti. Finland even beated our eternal arch-rival the Swedish who this time got no medals. (Personally I think SvD’s graphics should have deserved some, but let’s not go there…)

I highly recommend checking out tweets with the hashtag #malofiej, especially Alberto Cairo’s fantastic coverage.

To sum up, I really enjoyed myself, learned a lot and made new friends and professional contacts. Easily worth the money and time spent. I’m definitely going next year (the dates for 2014 were already announced: 23rd to 28th March) and highly recommend everyone to do similarly!

PS. A minor, but to me an imporant point: Being a “pesco-vegetarian” I did occasionally find it a bit challenging to feed my self in Pamplona. Although many a restaurant offered had a great selection of fish and seafood, many seem to put ham in an amazing variety of dishes, including seemingly vegetarian ones. I hear the local ham is really good, but if you’re a vegetarian – or muslim – I’d be careful. And it would be nice if there was a meatless option for the awards dinner next year. ;)

A misleading chart about Chávez’s legacy

FAIR has an entertaining piece critizising AP’s treatment of the late Venezuelan president Hugo Chávez. While I have some serious misgivings about the tendency of some left-leaning writers to skate over the awful human rights record of the Chavéz regime just because he was seen as a counterweight to the United States’ economic and foreign policy, it is certainly true that spending oil revenues on social programs instead of skyskrapers or museums is a sensible choice for a country like Venezuela. However, I take issue with the use of graphics in the FAIR article.

Accompanying the story is a graphic comparing the number of people living in poverty (defined here as a daily income of less than $ 2 at purchasing power parity) in Venezuela and Brazil:

Why is the vertical scale truncated at 10 %? And more importantly, why does the x-axis start at 2003? President Chávez took office in 1999 so wouldn’t that be a more relevant starting point? (I know the short answer to these questions that the graphic is a screenshot from World Bank’s website, but I still think it’s sloppy journalism to cut corners like this when it would have taken 5 minutes to download the relevant data and do the graphic in Excel.)

I downloaded the same World Bank data and did the graphic below, starting from 1998, a year before Chávez took office. I also added the data for Colombia and Mexico. I also added the data about U.S. oil price in real (inflation-adjusted) dollars per barrel as an inverted bar chart on the background to give context.

The World Bank data is somehat patchy, but by connecting the data points we have an interesting picture appears. In 1998 Brazil, Mexico and Venezuela had the same share of population living in poverty at roughly 20 %. In Colombia the share was some 7 percentage points higher. In the newest available data Brazil and Venezuela are roughly on par and Colombia is still trailing the two by the same amount as in 1998, whereas Mexico clearly has broken off the pack. Venezuela’s progress seems to be tracking the oil price curve whereas Mexico and Brazil show steadier, if less dramatic progress towards lower poverty rates.

The moral of the story is that it’s often possible to frame the data so that it supports your claim, whether true or not. Stepping back and showing more gives the audience the chance to judge for themselves. In this case it would seem that Venezuela did indeed make significant progress in reducing poverty during Chávez’s reign, but so did other oil exporting Latin American countries. Venezuela no more looks exceptional when showing a more complete set of data.

Kill your darlings, osa 2: Fraktuura vs. antiikva

Kill your darlings -sarjamme jatkuu, tällä kertaa vuorossa ihan hauska, mutta viime kädessä kirjan varsinaiseen aiheeseen nähden turhan pitkä referaatti Pekka Mervolan väitöskirjan antiikvakirjasimen maihinnousua Suomeen käsittelevästä osiosta.

* * *

Suomalaisten sanomalehtien ulkoasun historiaa tutkinut Pekka Mervola kuvaa väitöskirjassaan* värikkäästi typografisista kysymyksistä Suomessa vuosikymmenten varrella käytyä keskustelua. Pitkäänhän Suomessa yleisimpänä kirjaintyyppinä oli saksalaisella kielialueella suosittu, keskiaikaisesta käsikirjoitustyylistä kehittynyt fraktuura. 1800-luvulla alettiin käydä keskustelua siitä, tulisiko se Suomessakin korvata Ruotsissa ja muualla Euroopassa jo yleistyneellä ja nykyaikaisempana pidettynä antiikvalla, nykyisinkin yleisesti käytössä olevalla päätteellisellä kirjaintyylillä (jonka rinnalla nykyään käytetään yleisesti myös päätteetöntä groteskia).

Vastustus antiikvaa kohtaan oli pitkään huomattavaa. J.V. Snellman esimerkiksi huomautti kirjeessä Helsingin yliopiston suomen kielen lehtorille, Suomalainen-lehden päätoimittajalle K.A. Gottlundille, että useimmat kansanihmiset osasivat lukea vain fraktuuraa, sillä Raamattu ja kaikki kansankirjallisuus oli kautta aikojen ladottu tuolla kirjaintyylillä. Ruotsia puhuvalla väestönosalla tällaisia rajoitteita ei ilmeisesti ollut, sillä pitkään rinnakkain suomen- että ruotsinkielistä aineistoa sisältävissä lehdissä suomenkieliset uutiset ja ilmoitukset ladottiin fraktuuralla ja ruotsinkieliset antiikvalla.

Antiikvan puolustajien piti marssittaa esiin raskaan kaliiperin argumentit syrjäyttääkseen fraktuura lopullisesti lehtien sivuilta. Uuden Suomettaren yhtiökokouksen pöytäkirjoihin keväältä 1913 on tallentunut lääkintöneuvos K. Reijovaaran esittämä arvio, että antiikvakirjoitus on fraktuuraa terveellisempi lukijoiden silmille.

Myös ulkomaiset asiantuntijat marssitettiin typografiasodan rintamalle. Sanomalehdenkustantajain Liitto julkaisi 1919 saksalaisen professorin Münsterbergin näkemyksiä sanomalehden ulkoasusta. Professoria kuultiin itseoikeutetusti asiantuntijana hänen kehittämästään sanomalehtien psykotekniikasta, joka korosti lehden lukemisen helppoutta. Hän piti hyvälaatuista fraktuuraa saksalaisille sanomalehdille sopivampana kuin antiikvaa, mutta katsoi, että ulkomaalaisille tarkoitettu teksti oli parempi latoa antiikvalla.

Münsterberg otti kantaa myös muihin typografisiin kysymyksiin kuin vain kirjainlajiin, mm. suosittellen lehtien hieman suurentavan kirjasinkokojaan. Kirjoissa palstaleveys sai hänen mukaansa olla korkeintaan 90 mm, mutta sanomalehtipalstan leveyden tuli olla tuntuvasti kapeampi. Professorin suositus perustui siihen, että silmän hyppäys riviltä toiselle on aina sitä raskaampi mitä leveämpi palsta on. Liian suuri palstanleveys aiheutti hänen mukaansa silmissä epäsuhtaisen ”akkomodaatiojännityksen”, mikä haittaa luettavuutta. Münsterbergin mukaan saksalaisissa lehdissä on pyritty pieneen sivukokoon, sillä se on lukijalle mukava. Useimmat 1900-luvun alun sanomalehdethän olivat fyysiseltä kooltaan valtavia, reilusti nykyisiä [kirjoitettu ennen Hesarin tabloid-uudistusta –JK] broadsheet-kokoisia lehtiäkin isompia.

Münsterberg suositteli lehtimiehiä myös lyhentämään tekstikappaleiden pituutta. Hänen mukaansa lyhyet pysähdykset eli kappaleiden sisennykset miellyttävät lukijoita. ”Pitkät kappaleet taas vaikuttavat lukijaan samoin kuin pitkä, suora katu.” Hän otti kantaa myös kiivaana käyneeseen keskusteluun otsikoiden koosta. Aiemminhan juttuja ei välttämättä otsikoitu lainkaan, nyt suuret ja massiiviset otsikot olivat leviämässä Yhdysvalloista Eurooppaan, mikä herätti suuria intohimoja. Münsterberg suhtautui asiaan rennosti: ”Psykotekniikan kannalta katsottuna  ei voida mitään sanoa lihavia päällekirjoituksia vastaan, mitkä heti johdattavat silmän uusimpaan ja tärkeimpään lehdessä.” Suomessa tätä uutta otsikointityyliä oli ensimmäisenä edustanut Työmies, jonka lukijat olivat huonommin koulutettua väkeä, jolle pitkien tekstimassojen lukeminen oli sivistyneistöä hankalampaa. Otsikoinnin siis ajateltiin helpottavan luettavuutta ja maailmallakin otsikointi oli yleistynyt ensin kansalle tarkoitetuissa lehdissä kuten keltaisessa lehdistössä.

Myöhempinä vuosina näyttävässä otsikoinnissa mentiinkin sitten niin pitkälle, että peräti valtiovalta katsoi tarpeelliseksi puuttua asiaan: ”Mielestäni kahden palstan otsakkeet ilman alaotsakkeita riittävät useimmissa tapauksissa”, totesi pääministeri Antti Hackzell syksyllä 1944 paperipulan kirvoittamana.

Merkittävä käännekohta fraktuuran ja antiikvan välisessä taistelussa tapahtui kun 1912 julkaistiin antiikvalla ladottu Raamatun taskukokoinen laitos ja 20-luvulla perhe- ja vihkiraamatuissakin siirryttiin antiikvaan.

*) Mervola, Pekka 1995. Kirja, kirjavampi, sanomalehti. Ulkoasukierre ja suomalaisten sanomalehtien ulkoasu 1771–1994. Helsinki ym., Suomen Historiallinen Seura & Jyväskylän yliopisto. Väitöskirja.

Kill your darlings osa 1: Valekerroin

Blogi (ja Twitter-tilimme) on viettänyt nyt kirjoittajien lomien, työkiireiden ja kausi-influenssan vuoksi aika pitkään hiljaiseloa. Asiaan tulee nyt ainakin hetkeksi muutos.

Pidämme juuri viikon mittaista kirjoitustyöpajaa jossa yritämme saada työstettyä tulevan Informaatiomuotoilu-kirjamme käsikirjoitusta julkaisukuntoon. Valmista tekstiä on jo todella paljon, mutta se ei vielä muodosta kunnolla toimivaa kokonaisuutta ja sitä tässä nyt yritetään kursia kasaan. Yksi osa tätä työtä on ”kill your darlings”, eli kylmästi heittää pois tavaraa johon on jo ehtinyt vähän kiintymään. Onneksi meillä on blogi, jossa voi julkaista niitä tekstinpätkiä, joissa on joku järjen hiven, mutta jotka eivät kunnolla istu kirjan kokonaisuuteen. :) Tällä viikolla blogiin ilmestynee ainakin muutamia tällaisia juttuja. Alla niistä ensimmäinen, jossa jauhetaan valekertoimen käsitteestä ja asteikkojen katkaisemisesta tarpeettoman pitkällisesti yleistajuisen kirjan tarpeisiin.

* * *

Yksi tunnetuimpia tilastografiikan nyrkkisääntöjä on Edward Tuften kirjassaan The Visual display of quantative information (1983) esittelemä valekertoimen käsite. Sen ajatus on yksinkertainen:

grafiikan esittämä ilmiön koko
———————————————  =  valekerroin
datan esittämä ilmiön koko

Kun valekertoimen arvo on tasan 1, grafiikka esittää datan rehellisesti. Jos sen arvo poikkeaa tästä, grafiikka esittää ilmiön suuruuden väärin. Useimmiten poikkeama on ylöspäin eli grafiikka liioittelee ilmiön suuruutta. Tyypillinen esimerkki on tapaus, jossa tilastografiikkaesitykseen lisätään esteettisistä syistä perspektiivivaikutelma. Tällöin ero katsojasta kauempana ja tätä lähempänä olevien kuvioelementtien välillä näyttää suuremmalta kuin sen lukujen valossa pitäisi olla.

Toinen valitettavan tyypillinen virhe syntyy kun pylväskuvion pylväät korvataan jollain esittävällä kuvalla jota suurennetaan arvon muuttuessa, vaikkapa öljynkulutusta eri vuosina kuvaavilla eri kokoisilla öljytynnyreillä. Jos elementtiä venytetään vain pystysuunnassa, ongelma on lähinnä esteettinen: venytetty öljytynnyri näyttää kummalliselta. Mutta tämän esteettisen ongelman korjaaminen tynnyriä vastaavasti leventämällä saa aikaan valekertoimen arvon nousemaan huikeaksi: jos mittasuhteet säilytetään entisellään, tynnyrin korkeuden tuplaaminen saa kuvion pinta-alan nelinkertaistumaan. Ja todellisuudessahan tynnyri on kolmiulotteinen objekti, jolloin sen ulkomittojen tuplaaminen johtaisi tilavuuden kahdeksankertaistumiseen!

On ilmeistä, että tällainen kuvioelementtien paisuttelu nostaa valekerrointa. Nopeasti kuitenkin huomataan, että valekertoimen arvon tarkka määrittely ei ole tällaisessa tapauksessa aivan niin yksiselitteistä kuin Tufte esittää. Tutkimukset* ovat nimittäin osoittaneet, että pinta-alan ja tilavuuden muutokset arvioidaan keskimäärin pienemmiksi kuin ne todellisuudessa ovat. Jos tämä tekijä huomioidaan, havaitaan nopeasti että valekertoimelle ei voi antaa yksiselitteistä arvoa. Luvut matemaattisesti oikein pinta-aloina näyttävä esitys voi vaikuttaa vähättelevän niiden eroja ja toisaalta numeroita liioitteleva voi vaikuttaa näyttävän ne paremmin oikein.

Valekerroin on siis oikeansuuntainen, mutta liian yksioikoinen lähtökohta toimivan informaatioesityksen laatimiseen. Valekertoimen tulisi useimmissa tapauksissa saada arvo 1, mutta tämä ei vielä yksinään riitä takaamaan, että esitys on selkeä ja ymmärretään niin kuin sen suunnittelijat toivoisivat. Toisaalta on myös tilanteita, joissa valekerroin voi Tuften ohjeiden mukaan laskettuna olla suurikin, mutta katsoja ymmärtää silti asian paremmin kuin samasta aiheesta tehdyn esityksen jossa valekerroin olisi vain 1.

Tuften valekerroin saa yhdestä poikkeavia arvoja aina kun asteikko katkaistaan jostain kohtaa, joten sitä ehdottomana ohjenuorana käyttäessä asteikon katkaisu ei koskaan ole sallittua. Meidän mielestämme joissain mainituissa tapauksissa katkaiseminen kuitenkin on soveliasta, kunhan se merkitään hyvin selvästi.

Useimmat tilastografiikan auktoriteetit hyväksyvät pylväskuviossa yksittäisten pylväiden katkaisemisen ”yläpäästä”. Tällä tarkoitetaan tilannetta, jossa yksi tai kaksi pylvästä olisivat niin pitkiä, että jos ne piirrettäisiin samaan mittakaavaan kuin muut, ne latistaisivat muiden keskinäisen vaihtelun olemattomiin. Tällöin voidaan merkitä ylimittaiset pylväät katkaisumerkillä ja kirjoittaa niiden viereen pylväiden tarkat arvot. Samoin useimmat hyväksyvät asteikon katkaisun viivakuviossa. Kuten aiemmin mainittiin, viivakuvio korostaa ennen kaikkea muutosta ja trendiä, eikä niinkään yksittäisten datapisteiden absoluuttisia arvoja. Jos olennaista kuviossa on suhteellinen vaihtelu eli vaihtelun osuus kokonaisuudesta, asteikkoa ei saa katkaista. Jos sen sijaan olennaista on vaihtelu itsessään, viivakuviossa asteikon katkaiseminen voi olla perusteltua.

Pylväskuvioissa koko asteikon katkaisemiseen suhtaudutaan yleisesti ottaen negatiivisesti. Useimmiten tämä näkökanta on perusteltu. Asteikon mielivaltainen katkaisu ylikorostaa pylväiden eroja ja antaa siten väärän käsityksen kokonaisuudesta. Joskus kuitenkin myös pylväskuviossa erot saattavat olla tärkeämpiä kuin muuttujien saamat tarkat arvot. Pystypylväskuvion voi tällaisessa tilanteessa yleensä korvata viivakuviolla, mutta viivakuviolla ei voi kuvata sellaisia ryhmiä, joissa toisella akselilla on luokitteleva muuttuja. Jos hyvin pienetkin erot ovat tarkasteltavan aiheen kannalta merkityksellisiä, katkaistut pylväät voivat antaa asiasta paremman kuvan kuin katkaisemattomat.

Ajatelkaamme seuraavanlaista esimerkkiä: Tietojärjestelmien luotettavuus ilmaistaan palvelutasosopimuksissa usein saatavuusprosentteina, jotka kuvaavat sitä kuinka suuren osan ajasta palvelun luvataan olevan käytettävissä. Mikäli luvattu taso ei toteudu, järjestelmän toimittaja sitoutuu hyvittämään puutteen.

Kuvitellaan, että haluamme tehdä kuvion, jossa vertaillaan eri palveluntarjoajia joiden lupaamat saatavuusprosentit vaihtelevat välillä 99–99,999 %. Jos teemme näistä luvuista vaakapylväskuvion katkaisematta asteikkoa, eroa parhaan ja huonoimman palveluntarjoajan välillä kuviosta tuskin huomaa.

Erohan on alle prosentti, ei siis kovin suuri, joten mitä sitten? Näin on helppo ajatella, jos ei ymmärrä, mitä tuo prosentti oikeastaan kertoo. Ero on itse asiassa valtava. 99 % saatavuusprosentti merkitsee, että yhteensä 88 tunnin ajan vuodessa palvelu ei ole käytettävissä, siis esim. vartin käyttökatkosta vuoden jokaisena päivänä. 99,999 % saatavuusprosentti taas merkitsee lupausta korkeintaan reilun viiden minuutin yhteenlasketuista käyttökatkoista vuodessa. Ero on tuhatkertainen! Pylväiden katkaisematta jättäminen siis vääristää tässä tapauksessa kuvion antamaa vaikutelmaa pahasti.

Edellä kuvattu on toki äärimmäinen poikkeustapaus. Yleisemmin voi sanoa, että kuvion tulee näyttää merkitykselliset erot riittävän suurina, että ne hahmotetaan oikein. Asteikon katkaisemista tulee pääsääntönä välttää, mutta jos katkaistu asteikko kuvaa ilmiötä paremmin kuin katkaisematon, silloin asteikko kannattaa katkaista. Asteikon katkaisemista datapisteiden keskeltä tulee kuitenkin välttää jokseenkin aina.

 *) Esim. Macdonald-Ross, Michael 1977: How numbers are shown: a review of research on the presentation of quantitative data in texts. AV Communication Review 25:4, 259–409.

Apps4Finland-kisan tuloksista

Eilen julkistettiin vihdoin tämänvuotisen Apps4Finland-kilpailun voittajat. Koko kisan epävirallisen pääpalkinnon eli sovellussarjan ykkössijan nappasi odotetusti näkövammaisille suunnattu paikannuspalvelu BlindSquare, suurimman määrän palkintoja (3 kpl) voitti suunnistusharrastajille maastokarttoja automaattisesti tuottava Karttapullautin.

Informaatiomuotoilu.fi-porukalla oli visualisointisarjan finaalissa mukana peräti kolme työtä: designpääkaupunkivuoden ulkomainoskampanjaan toteutetut Ta-daa, dataa! -julisteet, Asuntokuume-blogiin toteuttamani datajournalistinen artikkeli Omistusasuminen kannattaa aina, jos on aikaa odottaa sekä yhteistyössä FloAppsin kanssa Kuntaliitolle toteuttamani KuntaNavigaattori-eksploraatiotyökalu. Visualisointisarjassa ei tällä kertaa palkintosijoille ylletty, mutta toinen Asuntokuumeelle laatimani artikkeli, Katso kartta: Täältä löytyy edullisin koti urbaanille lapsiperheelle voitti Helsingin kaupungin tilastodatan erikoispalkinnon vaikkei päässytkään visualisointisarjassa finalistien joukkoon.

Erikoispalkinto tuli itselleni hienoisena yllätyksenä. Helsinki on suomalaisten kuntien joukossa ollut selkeä edelläkävijä tilastotietojen tuottamisessa ja niiden avaamisessa vapaasti käyttöön, niin Helsinki Region Infoshare -palvelunAluesarjat.fi-palvelun kuin kaupungin tietokeskuksen omien julkaisukanavien kautta. Kokemukseni mukaan tietokeskuksen henkilökunta suhtautuu todella ystävällisesti myös suoraan heiltä tilastotietoja kyseleviin wannabe-datajournalisteihin. Helsingin kaupunkia koskevaa laadukasta tilastotietoa on siis todella runsaasti helposti saatavilla ja niinpä olisin kuvitellut että sitä hyödyntäviä töitäkin olisi kisassa ollut enemmän. Mutta en valita! :)

Sen sijaan pikkuisen haluaisin purnata visualisointisarjan palkinnoista. Asiaan vaikuttaa tietysti hieman sekin ettei palkintoa sattunut omalle kohdalle, mutta väittäisin että kevyttä rakentavaa kritiikkiä voisi perustellusti antaa riippumatta siitä oliko kisassa omia töitä mukana vai ei.

Sarjan voittaja, Ilmanlaadun mukaan vaihtuva kännykän taustaväri on yksinkertaisuudessaan nerokas, ”miksen keksinyt tätä itse” -reaktion aiheuttaja ja ehdottomasti palkintonsa ansainnut. Siitä ei sen enempää. Kaksi muuta palkintoa menivät HS.fi:ssä julkaistuille visualisoinneille: Hesarin työryhmän koostamalle Kuntavaaliehdokkaiden mielipiteiden arvokartalle ja Jaakko Salosen Sidonnaisuuskytkökset Käypä Hoito -suosituksissa -grafiikalle.

HS on ollut datajournalismin edelläkävijä Suomessa ja olisi ollut suorastaan skandaali jos se ei olisi palkintoa sarjassa voittanut. (Nimestään huolimatta visualisointisarja on samalla myös datajournalismisarja. Nimenmuutos esimerkiksi muotoon ”visualisointi- ja datajournalismisarja” voisi muuten olla harkitsemisen arvoinen.) Kuntavaaliehdokkaiden mielipiteiden arvokartta on varsin kelvollinen kokonaisuus, vaikka tosin kuten Osmo Soininvaara huomauttaa grafiikan yhteydessä julkaistussa artikkelissa, vaalikoneen kysymyksiä on kuitenkin aika pieni määrä joten tuloksiin yksittäisten ehdokkaiden kohdalla kannattaa suhtautua varauksella. Puoluetasolla grafiikan antama kokonaiskuva lienee oikea.

Sidonnaisuuskytköksiä kuvaava grafiikka on kinkkisempi tapaus. Siihen pohajutuva, HS:n painetussa lehdessä julkaisema artikkelikokonaisuus samasta aiheesta on arvokasta datajournalismia, mutta pelkkä visualisointi itsessään on mielestäni epäselvä eikä kerro juuri mitään muuta kuin että sidonnaisuuksia on paljon. Kyseessä on klassinen ”karvapallo”, verkostomalli jossa on niin paljon tavaraa että metsää ei enää näe puilta. Mielestäni palkinnon olisi sidonnaisuuskytkös-karvapalloa ennemmin ansainnut vaikkapa Suomen Kuvalehden Tulvakartta.

Tietysti kun hyviä töitä on paljon, käy niin että kaikki eivät voi voittaa. Jos kilpailutöiden määrä vastaisuudessakin kasvaa, tulisi minusta harkita myös kunniamainintojen jakamista varsinaisten palkintojen lisäksi. Mutta hieman herättäisin keskustelua siitä että jos kerran kilpailussa on visualisointisarja, miksei sinänsä erinomaisen ansioituneista osaajista koostuvassa tuomaristossa ole mukana ensimmäistäkään visualisointieksperttiä?

Itseään ei ole kohteliasta ehdottaa (sitä paitsi luulenpa että haluan osallistua kisaan tulevina vuosinakin ihan kilpailijana), mutta onneksi valinnanvaraa riittää ilmankin. Potentiaalisina tuomariehdokkaina alan kovista kotimaisista tekijöistä voisi mainita esimerkiksi seuraavat: Jens Finnäs, Tuomas Siitonen, viime vuoden visualisointisarjan voittaja Lauri Vanhala, Miska Knapek, visualisoinnin lehtori Markku Reunanen, kartografian lehtori Paula Ahonen-Rainio, tilastotieteilijä Kimmo Vehkalahti, Readingin yliopiston Jasso Lamberg tai vaikkapa runsaasti jurykokemusta graafisen suunittelun kilpailuista kerännyt professori emeritus Tapio Vapaasalo.

Can election results be predicted from the voters’ musical preferences?

The answer is probably: no. But that has not stopped me from creating this tongue-in-cheek analysis of the U.S. presidential election for Basso Magazine.

(Click on the picture to enlarge.)

Using a complicated and very unscientific method I calculated how well gigs played by artists touring the U.S. in the three months leading to the election predicted the result of each state. I scraped the concert data from Eventful.com API and cross-referenced that with the state-level election results, taking into account the margin of votes by which each state was won as well as the total number of concerts played in each state.

The index number for each artist was calculated by dividing the margin of win (in absolute votes, positive if for Obama and negative if for Romney) by total number of gigs in each state and awarding this number for all the artists who played a gig in the state. If an artist had more than one gig in a state, the second gig yielded only half of the index points, the third gig one third etc.

To feature on the final graphic the artist had to play gigs in at least ten states or states in which a total of 50 million votes or more were cast. More than one thousand artists qualified even with this limitation, so in the central part of the graphic only a select 70 artists are shown, chosen by their poplularity in Finland where the magazine is published. The final graphic was created in Nodebox and then finalized in Adobe Illustrator.

The artist who best predicted an Obama win was the reggae band Rebelution, whereas a Romney win was best predicted by a gig by the country singer Don Williams. The artist who least predicted win for either was Chris Isaak, probably best known for his 1990s hit ”Wicked Game”. The map below shows the gigs played by these three artists by state in the three months before the election.

(It should be noted that such apparent correlation is not an indication of the political preferences of the artists in question themselves. For example, a gig by Meat Loaf, who is a Romney supporter did not predict a win for Romney, whereas a gig by Weedeater did.)

What did we learn from all this? Probably not much – except I personally did learn quite a bit about data scraping! It was a fun excercise and I hope our readers know a little bit more about U.S. politics than they did before this. And just sayin’, but Nate Silver should maybe keep his eye on Rebelution and Don Williams in 2016! ;)

A little tool for making pictorial unit charts in Illustrator

Pictorial unit charts, like the ones Isotype made famous, is a nice alternative to conventional bar or area diagrams. However, actually making them if you’re working in Illustrator can require a good deal of handiwork and you might easily end up with the wrong amount of little guys when copying and pasting.

To make desinging pictorial unit charts a bit simpler I ended up writing a little snippet of JavaScript code that works with the neat Illustrator plugin Scriptographer. We decided to share it here, as some of our readers might find it useful.

Download unitsymbol-copy_selected.js here. When you first start Scriptographer, you will be presented with a dialogue window asking you to choose a folder for your own scripts. Put unitsymbol-copy_selected.js in that folder, so that Scriptographer can find it. Note that this is a very quickly made tool without much finesse, so feel free to improve! Anyhow, here’s how it works:

1. First you select a shape or symbol that you want to multiply (it also works with groups). I find working with Illustrator’s symbols to be very useful, since then it’s easy to change all individual instances of the same symbol at once when you update your unit figure after making a hundred copies.

2.Choose the script in the Scriptographer panel and press the play button to activate it. If you want to have a look at the code, just double-click the name of the script.

3. A dialog called Parameters appears. Here you set the number of columns and copies of the symbol (the value you will visualize). X- and Y-spacing are measured in points from the bounding box of the symbol, so if you want  squares of 10 pt with 2.5 pt spacing between them you input 2.5 in the X- and Y-spacing fields.

Press create and you’ll see the specified amount of copies appear next to your original ‘source’ symbol.

Todos concerning the usability would be to have it accept different units for the spacing, and maybe it should also to give a choice of where to place the symbols. If one would want to make it really clever one would make it possible to update the parameters of created charts, but I suspect that might require writing a whole new plugin, so that’ll be something for another day.

Kuntavaaleissa oli vain häviäjiä

Kuntavaalien vaalistudiota katsellessa vaikutti siltä, että liki jokaisen puolueen puheenjohtaja oli sitä mieltä, että juuri hänen puolueensa selviytyi näistä vaaleista voittajana: suurin ääniosuus, eniten valtuutettuja, pienin pudotus ääniosuudessa, liikkuvaan junaan hypänneeltä uudelta puheenjohtajalta huima tulos… Käytännön politiikan teon kannalta valtuustopaikat ratkaisevat ja siinä valossa moni näistä selityksistä voi olla järkeenkäypä. Jos kuitenkin katsotaan eri puolueiden kansalaisilta saamaa mandaattia, voi todeta, ettei näissä vaaleissa ollut kuin häviäjiä.

Vaalien äänestysprosentti, 58,2 %, on aivan surkea. Puolueet paukuttelevat nyt henkseleitään kun ovat saaneet ison siivun pienestä kakusta. Mutta kun katsotaan kuinka moni äänestäjä antoi kullekin puolueelle äänensä, lopputulos on että mikään, siis mikään puolue ei onnistunut keräämään lisää äänestäjiä verrattuna sekä edellisiin kuntavaaleihin 2008 että viimeisimpiin vaaleihin, jotka olivat siis vuoden 2011 eduskuntavaalit. (Presidentinvaaleja en pidä vertailukelpoisena koska niissä puoluetaustan rooli on vähäisempi.) Perussuomalaiset paransivat kyllä äänisaalistaan viime kuntavaaleihin verrattuna, mutta eduskuntavaaleihin verrattuna puolueen äänestäjien määrä on lähes puolittunut.

Oheiseen taulukkoon ja sen lukujen pohjalta laadittuun grafiikkaan on listattu nämä madonluvut. (Luvut on painotettu kussakin vaalissa äänioikeutettujen määrän mukaan, eli tarkalleen ottaen ilmoitettu muutos on puolueen saamassa osuudessa kaikkien äänioikeutettujen äänistä, ei absoluuttisissa äänimäärissä.)

muutos 2008– muutos 2011–
Kokoomus –11,4 % –12,1 %
SDP –12,5 % –16,1 %
Perussuomalaiset +58,7 % –47,0 %
Keskusta –11,8 % –3,0 %
Vihreät –9,4 % –3,7 %
Vasemmistoliitto –13,4 % –19,4 %
RKP –4,7 % –9,6 %
Kristillisdemokraatit –15,2 % –24,1 %
Suomen Työväenpuolue –27,5 % –72,8 %
Itsenäisyyspuolue –13,8 % –60,8 %
Köyhien Asialla –47,8 % –58,8 %
Piraattipuolue –61,8 %
Vapauspuolue –99,7 %
Muutos 2011 –83,8 %
Suomen Kommunistinen Puolue –22,1 % +17,1 %
Kommunistinen Työväenpuolue –35,5 % –56,7 %
Muut ryhmät –37,4 % +83,5 %

Ainoat puolueet, joiden saama äänimäärä on laskenut alle kymmenyksellä molemmista vertailuvaaleista ovat vihreät ja rkp ja nekin vain juuri ja juuri. Eipä ole hurraamista.

Kyllä poliitikoilla on tässä iso peiliin katsomisen paikka. Koko demokraattisen järjestelmämme legitimiteetti on koetuksella, jos tällainen kehitys jatkuu.


Lisäys 29.10.2012 

Tässä vielä painottamattomat luvut, eli siis muutokset puolueiden saamien äänten kappalemäärissä. Yleiskuva säilyy aika pitkälti samana. Keskusta ja vihreät ovat nollatuloksessa edellisiin eduskuntavaaleihin verrattuna ja kaikki miinusprosentit pienenevät hieman painotettuihin lukuihin verrattuna, mutta aika surkealta tulos näyttää näinkin arvioituna.

muutos 2008– muutos 2011–
Kokoomus –9,1 % –9,1 %
SDP –10,1 % –13,2 %
Perussuomalaiset +61,5 % –45,1 %
Keskusta –9,4 % +0,3 %
Vihreät –7,0 % –0,4 %
Vasemmistoliitto –11,1 % –16,6 %
RKP –2,1 % –6,5 %
Kristillisdemokraatit –12,9 % –21,5 %
Suomen Työväenpuolue –25,6 % –71,8 %
Itsenäisyyspuolue –11,5 % –59,5 %
Köyhien Asialla –46,4 % –57,5 %
Piraattipuolue –60,4 %
Vapauspuolue –99,7 %
Muutos 2011 –83,2 %
Suomen Kommunistinen Puolue –20,1 % +21,1 %
Kommunistinen Työväenpuolue –33,8 % –55,2 %
Muut ryhmät –35,7 % +88,1 %