2013-03-08 • Kirjoittaja Juuso Koponen • Asiasanat grafiikka, ei näin, in english, journalismi, rehellisyys, tilastot • Ei kommentteja
FAIR has an entertaining piece critizising AP’s treatment of the late Venezuelan president Hugo Chávez. While I have some serious misgivings about the tendency of some left-leaning writers to skate over the awful human rights record of the Chavéz regime just because he was seen as a counterweight to the United States’ economic and foreign policy, it is certainly true that spending oil revenues on social programs instead of skyskrapers or museums is a sensible choice for a country like Venezuela. However, I take issue with the use of graphics in the FAIR article.
Accompanying the story is a graphic comparing the number of people living in poverty (defined here as a daily income of less than $ 2 at purchasing power parity) in Venezuela and Brazil:

Why is the vertical scale truncated at 10 %? And more importantly, why does the x-axis start at 2003? President Chávez took office in 1999 so wouldn’t that be a more relevant starting point? (I know the short answer to these questions that the graphic is a screenshot from World Bank’s website, but I still think it’s sloppy journalism to cut corners like this when it would have taken 5 minutes to download the relevant data and do the graphic in Excel.)
I downloaded the same World Bank data and did the graphic below, starting from 1998, a year before Chávez took office. I also added the data for Colombia and Mexico. I also added the data about U.S. oil price in real (inflation-adjusted) dollars per barrel as an inverted bar chart on the background to give context.

The World Bank data is somehat patchy, but by connecting the data points we have an interesting picture appears. In 1998 Brazil, Mexico and Venezuela had the same share of population living in poverty at roughly 20 %. In Colombia the share was some 7 percentage points higher. In the newest available data Brazil and Venezuela are roughly on par and Colombia is still trailing the two by the same amount as in 1998, whereas Mexico clearly has broken off the pack. Venezuela’s progress seems to be tracking the oil price curve whereas Mexico and Brazil show steadier, if less dramatic progress towards lower poverty rates.
The moral of the story is that it’s often possible to frame the data so that it supports your claim, whether true or not. Stepping back and showing more gives the audience the chance to judge for themselves. In this case it would seem that Venezuela did indeed make significant progress in reducing poverty during Chávez’s reign, but so did other oil exporting Latin American countries. Venezuela no more looks exceptional when showing a more complete set of data.
2012-12-02 • Kirjoittaja Juuso Koponen • Asiasanat grafiikka, in english, musiikki, omakehu, politiikka • Ei kommentteja
The answer is probably: no. But that has not stopped me from creating this tongue-in-cheek analysis of the U.S. presidential election for Basso Magazine.

(Click on the picture to enlarge.)
Using a complicated and very unscientific method I calculated how well gigs played by artists touring the U.S. in the three months leading to the election predicted the result of each state. I scraped the concert data from Eventful.com API and cross-referenced that with the state-level election results, taking into account the margin of votes by which each state was won as well as the total number of concerts played in each state.
The index number for each artist was calculated by dividing the margin of win (in absolute votes, positive if for Obama and negative if for Romney) by total number of gigs in each state and awarding this number for all the artists who played a gig in the state. If an artist had more than one gig in a state, the second gig yielded only half of the index points, the third gig one third etc.
To feature on the final graphic the artist had to play gigs in at least ten states or states in which a total of 50 million votes or more were cast. More than one thousand artists qualified even with this limitation, so in the central part of the graphic only a select 70 artists are shown, chosen by their poplularity in Finland where the magazine is published. The final graphic was created in Nodebox and then finalized in Adobe Illustrator.
The artist who best predicted an Obama win was the reggae band Rebelution, whereas a Romney win was best predicted by a gig by the country singer Don Williams. The artist who least predicted win for either was Chris Isaak, probably best known for his 1990s hit ”Wicked Game”. The map below shows the gigs played by these three artists by state in the three months before the election.

(It should be noted that such apparent correlation is not an indication of the political preferences of the artists in question themselves. For example, a gig by Meat Loaf, who is a Romney supporter did not predict a win for Romney, whereas a gig by Weedeater did.)
What did we learn from all this? Probably not much – except I personally did learn quite a bit about data scraping! It was a fun excercise and I hope our readers know a little bit more about U.S. politics than they did before this. And just sayin’, but Nate Silver should maybe keep his eye on Rebelution and Don Williams in 2016! ;)
2012-11-07 • Kirjoittaja Jonatan Hildén • Asiasanat grafiikka, in english, isotype, työkalut • Ei kommentteja
Pictorial unit charts, like the ones Isotype made famous, is a nice alternative to conventional bar or area diagrams. However, actually making them if you’re working in Illustrator can require a good deal of handiwork and you might easily end up with the wrong amount of little guys when copying and pasting.
To make desinging pictorial unit charts a bit simpler I ended up writing a little snippet of JavaScript code that works with the neat Illustrator plugin Scriptographer. We decided to share it here, as some of our readers might find it useful.
Download unitsymbol-copy_selected.js here. When you first start Scriptographer, you will be presented with a dialogue window asking you to choose a folder for your own scripts. Put unitsymbol-copy_selected.js in that folder, so that Scriptographer can find it. Note that this is a very quickly made tool without much finesse, so feel free to improve! Anyhow, here’s how it works:

1. First you select a shape or symbol that you want to multiply (it also works with groups). I find working with Illustrator’s symbols to be very useful, since then it’s easy to change all individual instances of the same symbol at once when you update your unit figure after making a hundred copies.
2.Choose the script in the Scriptographer panel and press the play button to activate it. If you want to have a look at the code, just double-click the name of the script.
3. A dialog called Parameters appears. Here you set the number of columns and copies of the symbol (the value you will visualize). X- and Y-spacing are measured in points from the top-left corner of the symbol, so if you want squares of 10 pt with 2.5 pt spacing between them you input 12.5 in the X- and Y-spacing fields.
Press create and you’ll see copies of your symbol appear in the top-left corner of the paper. If you’re unhappy with the spacing, just Command-Z, change values and press Create again. (I told you it didn’t have much finesse!).
Todos concerning the usability would at least be to have the script account for the size of the symbol and accept different units for the spacing, and maybe it should also to give a choice of where to place the symbols. If one would want to make it really clever one would make it possible to update the parameters of created charts, but I suspect that might require writing a whole new plugin, so that’ll be something for another day.
2012-10-29 • Kirjoittaja Juuso Koponen • Asiasanat grafiikka, datajournalismi, politiikka, vaalit, yhteiskunta • Yksi kommentti
Kuntavaalien vaalistudiota katsellessa vaikutti siltä, että liki jokaisen puolueen puheenjohtaja oli sitä mieltä, että juuri hänen puolueensa selviytyi näistä vaaleista voittajana: suurin ääniosuus, eniten valtuutettuja, pienin pudotus ääniosuudessa, liikkuvaan junaan hypänneeltä uudelta puheenjohtajalta huima tulos… Käytännön politiikan teon kannalta valtuustopaikat ratkaisevat ja siinä valossa moni näistä selityksistä voi olla järkeenkäypä. Jos kuitenkin katsotaan eri puolueiden kansalaisilta saamaa mandaattia, voi todeta, ettei näissä vaaleissa ollut kuin häviäjiä.
Vaalien äänestysprosentti, 58,2 %, on aivan surkea. Puolueet paukuttelevat nyt henkseleitään kun ovat saaneet ison siivun pienestä kakusta. Mutta kun katsotaan kuinka moni äänestäjä antoi kullekin puolueelle äänensä, lopputulos on että mikään, siis mikään puolue ei onnistunut keräämään lisää äänestäjiä verrattuna sekä edellisiin kuntavaaleihin 2008 että viimeisimpiin vaaleihin, jotka olivat siis vuoden 2011 eduskuntavaalit. (Presidentinvaaleja en pidä vertailukelpoisena koska niissä puoluetaustan rooli on vähäisempi.) Perussuomalaiset paransivat kyllä äänisaalistaan viime kuntavaaleihin verrattuna, mutta eduskuntavaaleihin verrattuna puolueen äänestäjien määrä on lähes puolittunut.
Oheiseen taulukkoon ja sen lukujen pohjalta laadittuun grafiikkaan on listattu nämä madonluvut. (Luvut on painotettu kussakin vaalissa äänioikeutettujen määrän mukaan, eli tarkalleen ottaen ilmoitettu muutos on puolueen saamassa osuudessa kaikkien äänioikeutettujen äänistä, ei absoluuttisissa äänimäärissä.)
|
muutos 2008– |
muutos 2011– |
| Kokoomus |
–11,4 % |
–12,1 % |
| SDP |
–12,5 % |
–16,1 % |
| Perussuomalaiset |
+58,7 % |
–47,0 % |
| Keskusta |
–11,8 % |
–3,0 % |
| Vihreät |
–9,4 % |
–3,7 % |
| Vasemmistoliitto |
–13,4 % |
–19,4 % |
| RKP |
–4,7 % |
–9,6 % |
| Kristillisdemokraatit |
–15,2 % |
–24,1 % |
| Suomen Työväenpuolue |
–27,5 % |
–72,8 % |
| Itsenäisyyspuolue |
–13,8 % |
–60,8 % |
| Köyhien Asialla |
–47,8 % |
–58,8 % |
| Piraattipuolue |
— |
–61,8 % |
| Vapauspuolue |
— |
–99,7 % |
| Muutos 2011 |
— |
–83,8 % |
| Suomen Kommunistinen Puolue |
–22,1 % |
+17,1 % |
| Kommunistinen Työväenpuolue |
–35,5 % |
–56,7 % |
| Muut ryhmät |
–37,4 % |
+83,5 % |

Ainoat puolueet, joiden saama äänimäärä on laskenut alle kymmenyksellä molemmista vertailuvaaleista ovat vihreät ja rkp ja nekin vain juuri ja juuri. Eipä ole hurraamista.
Kyllä poliitikoilla on tässä iso peiliin katsomisen paikka. Koko demokraattisen järjestelmämme legitimiteetti on koetuksella, jos tällainen kehitys jatkuu.
______________________________
Lisäys 29.10.2012
Tässä vielä painottamattomat luvut, eli siis muutokset puolueiden saamien äänten kappalemäärissä. Yleiskuva säilyy aika pitkälti samana. Keskusta ja vihreät ovat nollatuloksessa edellisiin eduskuntavaaleihin verrattuna ja kaikki miinusprosentit pienenevät hieman painotettuihin lukuihin verrattuna, mutta aika surkealta tulos näyttää näinkin arvioituna.
|
muutos 2008– |
muutos 2011– |
| Kokoomus |
–9,1 % |
–9,1 % |
| SDP |
–10,1 % |
–13,2 % |
| Perussuomalaiset |
+61,5 % |
–45,1 % |
| Keskusta |
–9,4 % |
+0,3 % |
| Vihreät |
–7,0 % |
–0,4 % |
| Vasemmistoliitto |
–11,1 % |
–16,6 % |
| RKP |
–2,1 % |
–6,5 % |
| Kristillisdemokraatit |
–12,9 % |
–21,5 % |
| Suomen Työväenpuolue |
–25,6 % |
–71,8 % |
| Itsenäisyyspuolue |
–11,5 % |
–59,5 % |
| Köyhien Asialla |
–46,4 % |
–57,5 % |
| Piraattipuolue |
— |
–60,4 % |
| Vapauspuolue |
— |
–99,7 % |
| Muutos 2011 |
— |
–83,2 % |
| Suomen Kommunistinen Puolue |
–20,1 % |
+21,1 % |
| Kommunistinen Työväenpuolue |
–33,8 % |
–55,2 % |
| Muut ryhmät |
–35,7 % |
+88,1 % |
2012-09-10 • Kirjoittaja Juuso Koponen • Asiasanat grafiikka, hyvinvointi, mittakaava, yhteiskunta • 14 kommenttia
Informaatiomuotoilu.fi tuo oman panoksensa sosiaalisessa mediassa viime päivinä kuumana käyneeseen keskusteluun Suomeen hankittavaksi suunnitellusta potilastietojärjestelmästä. Hankkeeseen liittyy paljonkin erilaisia merkittäviä kysymyksiä, joita esimerkiksi helsinkiläinen kunnallisvaaliehdokas Otso Kivekäs on tuonut esiin blogissaan. (Full disclosure: olen itse mukana Otson kunnallisvaalikampanjan tukiryhmässä.) Me keskitymme niistä kuitenkin vain yhteen eli hankkeen arvioituihin välittömiin kustannuksiin.
Konsulttiyhtiö Accenturen Sitralle laatimassa selvityksessä on arvioitu, että hankinnan kokonaisarvo olisi 1,2–1,8 miljardia euroa jos ja kun järjestelmä otettaisiin käyttöön kaikissa Suomen sairaanhoitopiireissä. Tämä on valtava summa. Esimerkiksi Kirsi Louhelainen, myös kunnallisvaaliehdokas (Espoossa), vertasi summaa NASA:n avaruussukkulaohjelman tietojärjestelmän kustannuksiin. Esa Heiskanen vuorostaan laski, että 1,8 miljardilla saisi suomalaisilta it-yrityksiltä hankittua työtä noin 14 000 henkilötyövuoden verran. Esimerkiksi Microsoftin Windows 7 -käyttöjärjestelmää oli kehittämässä joidenkin arvioiden mukaan 2 000 ohjelmoijaa noin kolmen vuoden verran. Vaikka ohjelmistoprojekteissa työvoiman lisääminen ei takaa parempia tuloksia vaan usein päinvastoin, antaa jotain käsitystä hankkeen kaavaillusta mittakaavasta että siihen ollaan potentiaalisesti investoimassa enemmän työtä kuin kokonaisen käyttöjärjestelmän kehittämiseen.
Helpoiten mittakaavan hahmottaa kuitenkin visuaalisesti. Seuraavassa potilastietojärjestelmän ennustettu 1,2–1,8 miljardin kokonaiskustannus on suhteutettu muutamiin poliittisessa keskustelussa intohimoja herättäneisiin valtion ja pk-seudun kuntien menoeriin.

Jos suunniteltu hanke onnistuu kaikissa tavoitteissaan, 1,8 miljardin investointi on toki hyvin perusteltu. Mm. valtiontalouden tarkastusvirasto on kiinnittänyt huomiota siihen, että käyttäjäystävällisemmät ohjelmistot toisivat mittavia säästöjä terveydenhuoltoon. Mutta kuinka todennäköistä on, että hanke todella onnistuu kaikissa tavoitteissaan? Ainakaan se ei ole itsestäänselvää. Toisessa vaakakupissa on se riski, että hanke voi myös epäonnistua todella pahasti, myös taloudellisesti.
Jos katsotaan muutamia otsikoissa olleita julkishallinnon it-hankkeita, ei vaikuta kovinkaan tavattomalta että alkuperäiset kustannusarviot ovat osoittautuneet melko optimistisiksi:
| Hanke |
Alkup. kust.arvio |
Viimeisin kust.arvio |
Ylitys |
|
| Valtionhallinnon dokumentinhallinta ja arkistointi -hanke (VALDA) |
5,5 milj. € |
9 milj. € |
64 % |
Lähde 1, 2 |
| Ulosoton tietojärjestelmähanke |
6 milj. € |
16 milj. € |
167 % |
Lähde |
| Sähköinen kuljettajarekisteri |
20 milj. € |
100 milj. € |
400 % |
Lähde |
| Puolustusvoimien atk-, tulostus- ja kopiointjärjestelmien ulkoistaminen |
14 milj. € |
72 milj. € |
414 % |
Lähde |
| Kansallinen tietoarkisto ja sähköinen resepti (KANTA) |
20 milj. € |
450 milj. € |
2 150 % |
Lähde |
Rehellisyyden nimissä on todettava, että tähän listaan on tietysti poimittu vain pahimpia epäonnistumisia. Mainiosti onnistuneista hankinnoista ei revitä samanlaisia otsikoita. Silti, worst case -skenaarionkin mahdollisuus ansaitsee osakseen hieman pohdintaa. Näiden viiden VTV:n moittiman hankkeen keskimääräinen kustannusten ylitys oli uskomattomat 639 %. Lisäksi pitää huomioida, että luvuissa ei ole mukana kuin suorat lisäkustannukset, ei viivästymisestä ja huonolaatuisesta lopputuloksesta johtuvia välillisiä kustannuksia. Esimerkiksi VALDA-järjestelmä ajettiin lopulta kokonaan alas eli siihen käytetyt 9 miljoonaa olivat kokonaan hukkaan heitettyä rahaa.
On tietysti pelkkää spekulointia ja kauhuskenaarioiden maalailua väittää, että uuden potilastietojärjestelmän kustannukset, edes välilliset kustannukset huomioiden karkaisivat näin pahasti käsistä. Mutta ajatusleikkinä, entä jos järjestelmän hankinta todella menisi yhtä pahasti puihin kuin yllä kuvatut hankkeet ja ylittäisi budjetin tuolla 639 prosentilla? Silloin kokonaiskustannus olisi 13,3 miljardia euroa ja vertailukohtia pitäisi hakea jo varsin hurjasta suuruusluokasta:

Korostan, että yllä oleva kuva ei ole tarkoitettu realistiseksi arvioksi siitä, miten voi käydä jos tähän hankintaan lähdetään. On silti hyvä muistaa, miten monia pahoja epäonnistumisia julkisen sektorin it-hankinnoissa on tehty ja että jos nyt pohdittavana oleva projekti menee yhtä pahasti kiville, hintalappu on aivan mieletön.
Kun puhutaan näin suurista asioista, tarvittaisiin syvällisempää julkista keskustelua hankinnasta ja sen toteutustavasta kuin mitä tähän asti on nähty. Ei ole oikein, että miljardiluokan hankintaa joka määrittelee suomalaisen terveydenhoidon toimintaedellytyksiä vuosiksi eteenpäin viedään eteenpäin kulissien takana ja luottamushenkilöiden oletetaan toimivan kumileimasimena joka ei kyseenalaista tehtyjä päätöksiä. Toivon vilpittömästi, että Helsingin terveyslautakunta huomisessa kokouksessaan palauttaa asian uudelleen valmisteltavaksi ja siitä käydään se julkinen keskustelu jonka tämän mittakaavan hankinta vaatisi.
______________________________
Lisäys 10.9.2012
Meiltä on aiheellisesti kysytty, miksi käytämme yllä olevissa kuvioissa pinta-aloja kuvaamaan summia pituuden, siis tavallisen pylväskuvion sijaan. Onhan alalla yleisesti tunnettu fakta, että ihmiset ovat huomattavasti parempia havaitsemaan eroja pituudessa kuin pinta-alassa. Pinta-alaerot yleensä aliarvioidaan varsin reippaasti. Alla ensimmäisen laatikkokuvion tiedot myös perinteisen pylväskuvion muodossa:

Tämä kuvio antaa pienen vihjeen siitä, miksi tällä kertaa päädyimme käyttämään laatikoita pylväiden sijaan. Ennen kaikkea kyse on tilankäytöstä: nimiöt ovat niin pitkiä, että pylväskuviona esitettynä tärkein asia eli elementtien koot ei saa ansaitsemaansa visuaalista painoarvoa. Ja vaikka valittu esitystapa hieman ”vähätteleekin” kokoeroa vertailukohtiin, potilastietojärjestelmän hinta-arvio on niin poskettoman suuri että kuvion viesti tulee selväksi joka tapauksessa.
Kriitiikki on silti perusteltua. Taisimme itse sortua hieman siihen, mistä olemme usein muita kritisoineet: esitystavan näyttävyyden korostamiseen tiedonvälityksellisten kriteerien sijaan.
2012-05-21 • Kirjoittaja Jonatan Hildén • Asiasanat grafiikka, syklisyys, syntyvyys, tilastot, yhteiskunta • 7 kommenttia
Matt Stiles julkaisi The Daily Viz -blogiissan joitain päiviä sitten visualisoinnin joka kuvaa eri syntymäpäivien yleisyyttä Yhdysvalloissa. Ongelmallista Stilesin toteutuksessa oli, että se perustui dataan joka ei sisältänyt varsinaisia syntyvyyslukuja, vaan ainoastaan eri päivämäärien yleisyysjärjestyksen. Tästä syystä Stiles teki vielä uuden version joka perustuu absoluuttisiin lukuihin. Uudesta kuviosta käy ilmi, että kuukausittainen vaihtelu syntyvyydessä on lopulta varsin pieni.
Juttu herätti kysymyksen siitä, miltä syntyvyyden kuukausittainen vaihtelu mahtaisi näyttää Suomessa. Parahiksi Tilastokeskuksella on syntyvyydestä tarjolla varsin tarkkaa dataa. Syntymäkuukautta kiinnostavampaa on ehkäpä se, milloin lapset saavat alkuunsa. Yhdeksän kuukauden siirto lukuihin onnistuu toki päässälaskunakin, mutta hieman hankalasti. Siksi päätin sopivasti näin alkukesän tienoilla tehdä kuvion, joka esittää syntyvyyden kuukausittain ja jossa tämä muutos on tehty valmiiksi. Kuviosta voidaan lukea joko syntymäkuukausi (himmeällä suluissa), tai sen alla voimakkaammalla tekstityypillä ladottu oletettu hedelmöityskuukausi.

Koska alkuperäinen data kertoo vain syntyvyydestä, kuvio on lähinnä suuntaa antava, koska se ei huomioi keskimääräistä lyhyempiä tai pidempiä raskauksia. Kuvioon merkityt eri vuodet viittaavat samasta syystä syntymävuoteen, eivät siihen vuoteen jolloin lapsi on saanut alkunsa. Aiheen syklisyydestä johtuen kuviotyypiksi soveltui poikkeuksellisesti tutkakuvio. Kuvion katkaistu asteikko ylikorostaa vaihtelua tarkoituksellisesti.
Kuviosta voidaan havaita, että ajatus juhannuslapsista ei ole täysin tuulesta temmattu: kesäkuussa alkunsa saaneita lapsia on vertailun joka vuonna selvästi enemmän kuin toukokuussa. Muutoin suvunjatkaminen vaikuttaisi painottuvan pikemminkin syksyn ja talven puolelle. Esimerkiksi vuoden 2011 elokuussa, jolloin oli eniten syntyneitä, maailmaan tuli peräti 853 uutta suomalaista enemmän kuin saman vuoden joulukuussa. Vuoden 2011 lapsista oli siis laitettu alulle peräti 18% enemmän marras- kuin maaliskuussa.
Entäpä miltä kuvio näyttäisi, jos vaihtelua ei korosteta asteikkoa katkaisemalla? Tein Stilesin esimerkkiä seuraen tällaisen kuvion, johon on laskettu kuukausien päiväkohtaiset keskiarvot:

Kuukausittainen vaihtelu näyttäisi tämän perusteella olevan Suomessa aavistuksen suurempi kuin Yhdysvalloissa. Huippukuukausi on sama (syyskuussa syntyneet eli joulukuussa alkunsa saaneet), mutta joulukuun alhainen syntyvyysluku poikkeaa amerikkalaisesta datasta. Mitäköhän Suomessa ja USA:ssa siis tapahtuu maaliskuussa?
______________________________
Päivitys 23.5.2012
Kommenteissa esitettyjen hyvien huomioiden perusteella päätin tehdä pienen päivityksen. Ensimmäisessä tutkakuviossa oli tosiaan suoraan käytetty absoluuttisia syntyvyyslukuja, joten kuukausien eri pituuksia ei ollut kompensoitu. Pylväskuviossa tämä oli huomioitu, se näyttää syntyneet per kuukausi jaettuna kuukauden pituudella. Alla oleva uusi kuvio näyttää nyt samalla tavalla syntyneet per kuukausi, unohtamatta vuoden 2008 karkauspäivää. Voidaan huomata että helmikuun syntyneiden kohdalla aiemmassa grafiikassa ollut notkahdus on hävinnyt, mutta muutoin yleiskuva on varsin samannäköinen.

Epätarkkuutta lisää tietysti se seikka, että hedelmöityskuukausi voi olla erimittainen kuin syntymäkuukausi. Vaihtelu kuukausien pituudessa on kuitenkin pientä verrattuna raskauksien tavalliseen pituusvaihteluun: raskauden keston arviointi heittää parhaimmassakin tapauksessa 8-9 päivää ja vähemmän kuin viisi prosenttia lapsista syntyy tarkalleen 40 viikon raskauden jälkeen. 80% syntymistä tapahtuu kahden viikon sisällä 40 viikosta. Näin kuvio on hyvin karkeasti suuntaa antava siittämiskuukauden kohdalla. Tarkan tieton saamiseksi siitä milloin suomalaiset lapset on pantu alulle vaatisi siis enemmin kyselytutkimusta. Liekö sellaista tehty?
Aiempien vuosien ja pitkän ajan muutosten visualisointi on ehdottomasti mielessä ja siihen tulen varmasti vielä palaamaan vastaisuudessa, data kun ulottuu aina vuoteen 1900 asti.