grafiikka – Informaatiomuotoilu.fi

2015-04-062015-04-07

Perussuomalaisten maahanmuuttoraportin loppusummat perustuvat silmänkääntötemppuun

Perussuomalaisten ajatushautomon laatiman selvityksen loppupäätelmä nojaa tarkoitushakuiseen väestörajaukseen, jolla vanhimmat ikäryhmät siivotaan pois tilastoista. Kun tarkasteluun otetaan aikusväestö kokonaisuudessaan, kantaväestön nettovaikutus julkiseen talouteen on raportin omilla luvuilla laskettuna maahanmuuttajia huonompi.

Perussuomalaisten ajatushautomo Suomen Perusta julkaisi ennen pääsiäistä maahanmuuton vaikutuksia julkiseen talouteen käsittelevän raportin Maahanmuutot ja Suomen julkinen talous. Tutkimus pyrkii selvittämään maahanmuuttajien aiheuttamat ”julkisen talouden nettovaikutukset”, eli paljonko jää loppusummaksi kun eri maahanmuuttajaryhmien tuottamasta taloudellisesta hyödystä vähennetään aiheutetut kustannukset.

Aivan alkajaisiksi täytyy kiittää raportin laatinutta Samuli Salmista hänen tekemästään mittavasta työstä. Selvitys lienee tähän mennessä yksityiskohtaisin Suomessa tehty yritys arvioida maahanmuuton kokonaiskustannuksia. Metodologisesti se on varsin läpinäkyvä ja helposti sellaisenkin henkilön arvioitavissa, joka ei ole kvantitatiivisen yhteiskuntatutkimuksen asiantuntija (esim. allekirjoittanut).

Harmi kyllä, tutkimuksen loppupäätelmänä mm. raportin julkistustilaisuudessa esitetty arvio – maahanmuutto kokonaisuutena aiheuttaa Suomelle 700 miljoonan vuosittaiset kustannukset, kun taas kantaväestön nettovaikutus henkeä kohden on lähellä nollaa – on saatu aikaiseksi tilastollisella silmänkääntötempulla.

Ikärajaus kaunistelee suomalaissyntyisten lukuja

Tutkimuksen alkuosassa käsitellään 20–62-vuotiaiden, ulkomailla syntyneiden aiheuttamaa nettovaikutusta henkeä kohden viidessä eri ryhmässä: työlliset, työttömät, opiskelijat, eläkeläiset ja muut. Luvussa 7 tarkastellaan eri maahanmuuttajaryhmien kokonaisvaikutusta ikäryhmässä 7–70-vuotiaat. Jälkimmäisessä tarkastelussa ovat mukana myös toisen polven maahanmuuttajat, eli ne joilla on ainakin yksi ulkomailla syntynyt vanhempi.

Tutkimuksessa käytetyistä ikärajauksista varsinkin 7–70 vuotta on epätavallinen, ja ongelmallinen kahdesta syystä:

Tilastokeskuksen avoimista aineistoista ei ole mahdollisuutta tehdä poimintaa etnisen taustan mukaan eri pääasiallisen toiminnan ryhmiin (opiskelijat, työlliset jne.) kuuluvien määristä näillä ikärajauksilla, eivätkä ne ole muissakaan suomalaisissa tutkimusjulkaisuissa kovin yleisiä. Yleisemmin käytetyn ikärajauksen (vaikkapa 15–64-vuotiaat) soveltaminen tekisi tutkimuksen tuloksista paremmin vertailukelpoisia muihin tilastoihin ja tutkimustietoon.

Varsinainen silmänkääntötemppu piilee kuitenkin siinä, että ikähaitarin katkaiseminen asteikon yläpäästä kaunistelee suomalaistaustaisten nettovaikutusta ulkomaalaistaustaisiin verrattuna dramaattisesti.

Suomessa asuu yli 1,1 miljoonaa yli 62-vuotiasta suomea, ruotsia tai saamea äidinkielenään puhuvaa, kun taas vieraskielisistä vain n. 10 000 kuuluu tähän ikäryhmään. Yli 70-vuotiaiden osalta vastaavat luvut ovat 620 000 ja 4 000. Käytännöllisesti katsoen kaikki yli 70-vuotiaat ovat eläkeläisiä ja raportin lukujen mukaan juuri eläkeläisten nettovaikutus julkiseen talouteen on kaikkein voimakkaimmin negatiivinen.

Eräs painavimmista työperäisen maahanmuuton puolesta esitetyistä argumenteista on, että Suomen väestö vanhenee jatkuvasti ja eläkeläisten määrä suhteessa työikäisiin kasvaa huolestuttavasti. Jättämällä laskuista 620 000 eläkeläistä tämä näkökulma saadaan kätevästi ohitettua, mutta kovin älyllisesti rehellisenä tällaista lähestymistapaa ei voi pitää.

Uusi laskelma perustuu raportin omiin lukuihin

Raportin sivulta 82 löytyy taulukko, jossa on laskettu kymmeneen suurimpaan maahanmuuttajaryhmään (syntymävaltion perusteella) kuuluvien julkisen talouden nettovaikutukset henkeä kohden:

	Opiskelijat	Työlliset	Työttömät	Eläkeläiset	Muut
Somalia	–21 208 €	–2 998 €	–17 740 €	–32 609 €	–15 945 €
Irak	–15 462 €	–4 174 €	–20 842 €	–21 786 €	–14 944 €
Ruotsi	–14 905 €	3 954 €	–20 032 €	–31 933 €	–14 228 €
Ent. Jugoslavia	–13 630 €	765 €	–17 874 €	–22 560 €	–11 698 €
Turkki	–11 953 €	1 048 €	–15 974 €	–18 005 €	–9 225 €
Thaimaa	–10 913 €	–2 326 €	–16 332 €	–30 125 €	–8 712 €
Ent. Neuvostoliitto	–12 089 €	2 191 €	–17 615 €	–23 700 €	–8 443 €
Viro	–12 630 €	2 309 €	–18 041 €	–28 223 €	–6 612 €
Kiina	–10 473 €	3 374 €	–13 710 €	–26 723 €	–5 089 €
Saksa	–11 817 €	8 516 €	–15 095 €	–20 904 €	–4 708 €
Kaikki ulkomaat	–13 465 €	2 742 €	–17 594 €	–26 692 €	–8 734 €
Suomi	–17 017 €	5 337 €	–12 568 €	–24 254 €	–11 242 €

Yhdistin tämän taulukon henkilöä kohden lasketut luvut Tilastokeskuksen avoimiin tietoihin eri ryhmiin kuuluvien määristä siten, että kaikki 15 vuotta täyttäneet otetaan mukaan. Laajensin tarkastelun samalla kaikkiin ulkomaalaisryhmiin ja selvitin, miten suomalaiset kunnat sijoittuisivat suhteessa niihin. Kunnista kerrotaan myös kuntatyyppi tilastollisen kuntaluokituksen mukaan ja perussuomalaisten kannatus viime kunnallisvaaleissa (2012). Näin syntynyt interaktiivinen visualisointi löytyy alta. (Visualisointi ei välttämättä näy oikein kaikilla vanhemmilla selaimilla.)

Haluan vielä erikseen korostaa, että kaikki visualisoinnin tiedot perustuvat perussuomalaisten omassa maahanmuuttoselvityksessä esitettyihin lukuihin (taulukko yllä) ja Tilastokeskuksen avoimiin aineistoihin.

Grafiikassa on sinisellä värillä korostettu ne kunnat, joissa perussuomalaisten kannatus oli kunnallisvaaleissa vähintään 20 %. (Kynnysarvoa voi muuttaa vasemman alakulman säätimellä.) Kansallisuus- ja kieliryhmistä korostettuina näkyvät ne, joille on Suomen Perustan selvityksessä laskettu omat luvut. Muiden ryhmien nettovaikutus on laskettu ”kaikki ulkomaat” -rivin lukujen perusteella.

Kun tarkasteluun otetaan koko 15 vuotta täyttänyt väestö, havaitaan että vieraskielisten vaikutus julkiseen talouteen on perussuomalaisten käyttämällä laskentatavalla negatiivinen (−5 804 € henkeä kohden), mutta kotimaisten kielten puhujien vaikutus on vielä tätäkin negatiivisempi (−7 039 €). Koko eläkeläisväestön ottaminen mukaan tarkasteluun mielivaltaisen 70 vuoden ylärajan soveltamisen sijaan kääntää siis selvityksen alkuperäisen tuloksen päälaelleen: maahanmuuttajien vaikutus julkiseen talouteen on positiivisempi kuin suomalaissyntyisten.

Täsmennys 6.4. klo 16:55: 70 vuoden ikäraja ei ole täysin mielivaltainen, vaan ilmeisesti juontuu käytetystä aineistosta (Tilastokeskuksen yhdistetty työntekijä-työnantaja-aineisto, FLEED), joka sisältää vain 15–70-vuotiaat. Kun aineiston perusteella on kuitenkin pystytty laskemaan nettovaikutus henkeä kohden myös eläkeläisille ja etenkin kun yli 70-vuotiaita maahanmuuttajia Suomessa on vain n. 4 000, olisi jonkinlainen estimaatti voitu ja pitänyt tehdä myös yli 70-vuotiaiden ryhmälle.

Manner-Suomen kunnista vain noin kymmenesosa on nettovaikutukseltaan asukasta kohden vieraskielisten keskiarvoa parempi. Niistä kunnista, joissa perussuomalaisten kannatus oli kunnallisvaaleissa vähintään 20 % ei yksikään yllä vieraskielisten ryhmien keskitasolle ja vain yhden (Kaustinen) nettovaikutus on suomenkielisten keskitasoa positiivisempi.

Onko oikein arvottaa kuntia näin suoraviivaisesti pelkän asukasta kohden lasketun taloudellisen hyödyn mukaan? Pitäisikö eläkeläiset ja perussuomalaisten kannattajat ajaa pois maasta talouslukuja rumentamasta? Ei pitäisi. Ihmisarvoa tai vaikkapa kansallismaiseman arvoa ei mitata rahassa, eikä rahallinen mittari aina huomioi kunnolla kaikkea välineellistäkään hyötyä. Hyvin yksinkertaisena esimerkkinä jälkimmäisestä mainittakoon eläkeläisten apu lastenlasten hoidossa – tällä on hyvin konkreettinen merkitys kansantalouden kannalta, mutta sen täsmällinen hinnoittelu on työlästä, eikä sitä siksi yleensä laskelmissa huomioida.

Myöskään pakolaisia ei Suomeen oteta siksi, että he hyödyttäisivät julkista taloutta, vaan koska on oikein auttaa hädänalaisia. Perhesiteiden kautta maahamme tulevat taas ovat ennen kaikkea jonkun läheisiä ja vasta toissijaisesti työvoimaa ja veronmaksajia. Toki on järkevää pyrkiä hyödyntämään maassa jo asuvien taloudellinen potentiaali, mutta sitä tuskin voimme muuttaa, että juuri maahan saapuneet pakolaiset ovat julkisen talouden näkökulmasta vastakin menoerä. Ja mitä sitten? Niin ovat sairaat ja vanhuksetkin. Ei se tarkoita, että nämä ihmisryhmät pitäisi jättää oman onnensa nojaan.

Selvityksessä käytetty laskentatapa tuottaa absurdeja tuloksia

Työperäisen maahanmuuton kohdalla kysymys taloudellisista vaikutuksista on relevantti, eikä se toki merkityksetön ole muidenkaan maahanmuuttajaryhmien osalta. Harmillisesti on kuitenkin todettava, että perussuomalaisten selvitys ei anna maahanmuuton kustannuksista tai hyödyistä kunnollista kuvaa, koska käytetty laskentatapa on selvästi virheellinen.

Lähes kaikki etniset ryhmät jäävät raportin lukujen mukaan nettovaikutukseltaan selvästi pakkasen puolelle kun myös yli 70-vuotiaat otetaan mukaan laskelmaan. Ainut ryhmä, joka pääsee rimaa hipoen plussalle on Saksan kansalaiset (+12 €). Selvityksen lukujen perusteella voidaan laskea, että 15 vuotta täyttäneiden kotimaisten kielten puhujien yhteenlaskettu nettovaikutus julkiseen talouteen on –30,4 miljardia ja vieraskielisten –1,2 miljardia.

Tämä tarkoittaa sitä, että kaikkien Suomessa asuvien 15 vuotta täyttäneiden yhteenlaskettu nettovaikutus julkiseen talouteen on –31,6 miljardia. Tulos on täysin absurdi ja kertoo, että laskentatapa on pahasti pielessä. Julkisen sektorin alijäämä vuonna 2011 oli todellisuudessa vain 2 miljardia euroa. Käytetty laskentatapa hukkaa siis johonkin melkein 30 miljardia laskelman plussapuolelle kuuluvia eriä (tai liioittelee menoja).

Tästä n. 7 miljardia koostunee laskelmasta tietoisesti pois jätettyjen verojen kuten yhteisö-, kiinteistö-, perintö- ja varainsiirtoverojen osuudesta, mutta ne huomioidenkin laskelmaan jää ammottava aukko. Koko väestön yhteenlasketun nettovaikutuksen pitäisi suunnilleen vastata julkisen talouden sektoritilinpidon loppusummaa (–2 miljardia). Kun otetaan huomioon, että 0–14-vuotiaat tuottavat julkiselle sektorille pääosin menoja, yhteenlasketun nettovaikutuksen pitäisi yli 15-vuotiaiden osalta olla luultavasti jopa jonkin verran plussan puolella. Jos tuloja tai menoja ei pystytä kohdistamaan väestöryhmittäin, ne pitäisi jakaa koko väestön kesken jossain soveliaassa suhteessa, kuten tutkimuksessa on tehty esimerkiksi välillisten verojen ja kollektiivisesti kulutettujen palveluiden (esim. maanpuolustuksen) kohdalla, eikä jättää kokonaan pois, kuten nyt on tehty.

Lisäys 7.4. klo 12:02: Vaikuttaa siltä, että selvityksessä ei ole huomioitu työnantajan eläke- ja sosiaaliturvamaksuja ainakaan 20–62-vuotiaiden henkilöä kohden lasketuissa summissa. Tämä selittäisi noin 17 miljardia tuosta 31,6 miljardin aukosta. Rajaus on todella erikoinen, koska jos maksetut eläkkeet on kuitenkin laskettu mukaan menopuolelle niin totta kai eläkemaksut kuuluvat tulopuolelle. Se, että ne maksaa nimellisesti työnantaja, ei poista sitä että eläkemaksut ovat normaalimääritelmän mukaan osa verokiilaa.

20–62-vuotiaiden maahanmuuttajien ryhmässä työllisiä on selvityksen lukujen mukaan n. 120 000. Raportista ei ilmene, millainen maahanmuuttajien keskimääräinen palkkataso on, mutta tässä nopea laskelma siitä, paljonko työnantajan eläke- ja sosiaaliturvamaksuja tämän suuruiselta ryhmältä kertyisi eri keskimääräisillä kuukausipalkoilla:

• 1 500 €/kk: n. 550 milj. €/v.
• 2 000 €/kk: n. 750 milj. €/v.
• 2 500 €/kk: n. 900 milj. €/v.
• 3 000 €/kk: n. 1,1 mrd €/v.

Väite maahanmuuton 700 miljoonan vuosikuluista julkiselle sektorille näyttää siis perustuvan siihen, että laskelmassa on jätetty osa julkisen sektorin tuloista (eläke- ja sosiaaliturvamaksut) huomioimatta.

Vaikuttaa lähestulkoon siltä, että selvitystä varten on ensin kehitetty laskentatapa, jolla saadaan maahanmuuton kokonaisvaikutus painettua varmasti miinukselle, ja kun on huomattu, että se painaa suomalaissyntyisten loppusumman vielä maahanmuuttajiakin pahemmin pakkaselle, on korjausliikkeenä leikattu vanhimmat ikäluokat tarkastelusta pois. Tuskinpa tutkimuksen laatija sentään aivan näin häikäilemättömän tarkoitushakuisesti on toiminut, mutta kyllä lukujen käsittely pönkittää perussuomalaisten maahanmuuttopoliittista agendaa voimakkaammin kuin mihin niiden objektiivinen tarkastelu mielestäni antaisi aihetta.

Metodologia ja lähteet

Lopuksi vielä muutama sana itse tekemistäni valinnoista ja käytetyistä aineistoista.

Aineistoni ovat perussuomalaisten kannatuslukuja lukuun ottamatta samalta vuodelta (2011) kuin alkuperäisen selvityksen luvut. Kunnallisvaalien 2012 tulos valikoitui aineistoksi vuoden 2011 eduskuntavaalien sijaan, koska kunnallisvaaleissa vaalitulos on helposti saatavissa kunnittain kun taas eduskuntavaaleissa kuntakohtaiset tulokset pitäisi työläästi koostaa äänestysaluekohtaisia tietoja yhdistellen.

Suomen Perustan selvityksessä maahanmuuttotausta on määritelty henkilön tai hänen vanhempiensa syntymämaan mukaan. Tätä tietoa ei Tilastokeskuksen avoimista aineistoista löydy, joten olen käyttänyt visualisoinnissa sen sijaan tietoa pääasiallisesta toiminnasta kansallisuuden ja kielen mukaan. Kansallisuus vastannee siedettävällä tarkkuudella ensimmäisen sukupolven maahanmuuttajan syntymämaata ainakin tuoreemmissa maahanmuuttajaryhmissä ja kieli vuorostaan kertoo likimääräisesti ensimmäisen ja toisen sukupolven maahanmuuttajien kokonaismäärän (sikäli kun kieli voidaan yhdistää yksittäiseen taustamaahan).

Niiden etnisten ryhmien osalta, joille raportissa on laskettu omat luvut (taulukko s. 82), olen käyttänyt näitä lukuja. Muiden osalta laskelman pohjana ovat olleet ”kaikki ulkomaat” -ryhmän luvut. Kielten osalta olen hyödyntänyt tietoa Suomessa asuvien eri kielten puhujien alkuperämaista; esimerkiksi suurin osa Suomen albaniankielisistä on kotoisin entisestä Jugoslaviasta vaikka kieltä puhutaan myös Albaniassa, joten tämän kieliryhmän laskelmassa on käytetty entisen Jugoslavian lukuja. Sen sijaan esimerkiksi arabian puhujat ovat kotoisin useista eri taustamaista, joten tämän ryhmän osalta laskelma perustuu ”kaikki ulkomaat” -ryhmän lukuihin. Tästä säännöstä hieman poiketen ruotsinkielisille on käytetty Suomessa syntyneiden lukuja ja saksankielisille Saksassa syntyneiden. Ruotsin kansalaisille sen sijaan on käytetty Ruotsissa syntyneiden lukuja.

Lähteenä on käytetty Maahanmuutot ja Suomen julkinen talous -raportin lisäksi seuraavia Tilastokeskuksen avoimesta StatFin-tilastotietokannasta löytyviä aineistoja:

Koostetiedosto csv-muodossa löytyy täältä.

Kirjoitin myös jatkoartikkelin aiheesta.

2014-06-052014-06-05

Are carbohydrates really the culprit behind the obesity epidemic?

Obesity is a global health problem. It is obiviously linked to diet in some way, but the exact nature of this link is the subject of volumes of research, and also of heated exchanges online. One school of thought, occasionally exhibiting quasi-religious tendencies in some of its advocates, claims that the obesity epidemic is mainly caused by our diet being too rich in carbohydrates from cereals and other such sources, as well as vegetable oils. As a solution, they advocate changing to a diet rich in animal fats, meat, eggs and so on.

Inspired by the coverage of a recent piece in The Lancet about rising obesity rates, as well as a somewhat uncritical book review in The Economist I decided to see myself if the publicly available data on obesity and diets could be tortured into confessing something on the issue.

I need to emphasize that this is not a scientific study. Describing the methods used as rigorous would be a stretch, to say the least. A few potential problems with the data and with my handling of it are outlined in the end of this article, and the list is by no means exhaustive. What this is, is a bit of light-weight data journalism that will hopefully inspire discussion and possibly more serious research into the data.

I used this WHO data on obesity (the same used by the Lancet authors), combined with agricultural statistics from FAO to see if the number of overweight and obese people in a country was correlated with the intake of various foods.

To capture the effect of changing diets, I used the data from several different years within a single country as separate data points where historical data was available. If you disagree with this choice, you can switch the view to show only the most recent data.

The end result is below, an interactive scatterplot that shows how the consumption of various foods correlates with the number of overweight and obese people in each country. The idea of the visual presentation is that the reader can look at the full dataset and not need to rely on single numbers such as averages or correlation coefficients.

In light of these numbers, there is no evidence that high cereal consumption is linked with obesity on a country level. If anything, the correlation between the share of overweight adults and cereal consumption is mildly negative (r = –0.18). With starchy roots (such as potato) there is no correlation whatsoever (r = 0.08).

The correlation between vegetable oils and overweight is moderate (r = 0.33), though not much greater than with the consumption of animal fats (r = 0.23). It should be noted, though, that the consumption of animal fats is very small in most non-Western countries, so not very many conclusions can necessarily be drawn from this comparison.

The strongest correlation in the data with the share of overweight adults is with meat consumption (r = 0.5). Not surprisingly, the correlation with sugar and sweeteners is also reasonably strong (r = 0.43).

The correlation with meat consumption and obesity is probably at least partially due to the fact that higher meat consumption is typical of higher living standards overall, which also often means a higher total calorie intake and less physical work. The existence of these types of confounding variables is amply demonstrated by the fact that the correlation of overweight with the consumption of fruits is also moderate (r = 0.32). Practically no one believes eating fruits makes you fat, so the explanation is probably that fruit intake is also simply correlated with higher living standards.

So what’s the take-home messge? I would interpret the data so that no single group of foods is responsible for the obesity epidemic by itself, certainly not cereals. This sort of population-level comparison using somewhat patchy data can hardly settle the matter by itself, but I would still argue that if cereals (and carbohydrates in general) were really so bad, there should be a sliver of the effect visible in the data even on this coarse level. Which there isn’t, as you can see.

The jury is still out on vegetable oils, but if we want to explain away the high correlation of meat consumption with the share of overweight adults, I would argue similar confounding factors are to be found here; the use of vegetable oils in the West has risen with the overall rise of living standards. So if you want to argue that the correlation of obesity with meat intake is spurious, the same should probably said of the clearly weaker correlation with vegetable oils – and vice versa.

The next step would be to compare the calorie intake from different kinds of foods instead of the absolute numbers (kg/capita/year), which could possibly help to overcome the fact that a rise in living standards affects both the total calorie intake and the mix of different types of foods consumed.

Potential sources of error

Apart the whole project being executed within the span of two working days, and by a designer with no scientific training to speak of, there are some specific details in the data and how it was processed that can be sources of error.

FAO’s data shows the “food supply”, that is, the food theoretically available for human consumption, not the actual food intake. Factors such as wastage are not taken into account, and may vary from country to country.

WHO’s data on obesity is collected using methods and samples differing from country to country and may thus not be directly comparable. There were some examples in the data where a change in the numbers was clearly an artifact of the data collection process, not representative of the change in the facts on the ground; for example the share of overweight people dropping from 59.8 to 46.2 percent in a single year in Australia 2000–2001. In such cases the most recent data was assumed to be reliable, and the older data was discarded.

The selection of countries for which the data is available is much better representative of high-income Western countries than world’s other regions, which is bound to effect the overall picture.

Because the number of years for which historical data was available varied greatly between different countries, not all years for which data was available were used. A more balanced subset was instead attempted by picking only some years, far apart enough to exhibit clear changes in dietary patterns. The method used is extremely arbitrary, and probably effects the end result.

The final dataset used for the visualization was created with a custom Python script from messy original data by a non-programmer, a process which is a highly probable source of error. The final data was superficially examined for flaws (and the script corrected several times accordingly), but it has not been rigorously and thoroughly scrutinized in the way required for e.g. scientific publication and thus scripting errors remain a potential source of errors in the data. For those interested in assessing the data quality themselves, the processed data can be downloaded as a tsv file (which is similar to csv, except using tabs instead commas as separators) here.

2014-05-272014-05-28

Eurovaalien kovin kilpailu käytiin vihreiden ja demarien välillä

Eurovaalituloksen ensimmäisissä analyyseissä on noussut vahvasti esiin arvio, että viime eurovaaleihin nähden huonosti menestyneet vihreät menettivät ääniä ennen kaikkea hallitusvastuusta keväällä luopuneelle vasemmistoliitolle. Koko maan lukuja katsoessa tämä on houkutteleva tulkinta, olihan vasemmiston vaalivoitto suunnilleen vihreiden tappion suuruinen.

Ilmeisin selitys ei kuitenkaan välttämättä pidä paikkaansa tarkemman analyysin valossa. Jos vihreät olisivat menettäneet äänestäjiään ennen kaikkea vasemmistoliitolle, tämän pitäisi näkyä äänestysaluekohtaisessa tarkastelussa niin, että vihreiden tappio olisi suurin niillä alueilla joissa vasemmisto on onnistunut houkuttelemaan eniten äänestäjiä. Näin ei kuitenkaan näyttäisi olevan.

Tein vertailun sunnuntain eurovaalien ja vuoden 2012 kunnallisvaalien tuloksesta äänestysalueittain. (Vertailu edellisiin eurovaaleihin ei onnistu yhtä helposti, koska ainakaan vielä tätä kirjoittaessa oikeusministeriö ei ole julkaissut vuoden 2009 äänestysaluekohtaisia tuloksia yhtä kätevässä kootussa koneluettavassa muodossa kuin vuoden 2012 kuntavaaleista ja 2014 eurovaaleista on saatavilla. Tieto on sinänsä saatavilla ja ajan salliessa koitan myöhemmin ottaa sen mukaan analyysiin.) Satunnaisvaihtelun karsimiseksi otin mukaan vain sellaiset äänestysalueet, joilla molemmissa vaaleissa oli annettu yhteensä vähintään tuhat ääntä.

Käytin korrelaation mittarina helposti laskettavaa Pearsonin korrelaatiokerrointa, joka ei välttämättä ole paras mahdollinen tilastollinen analyysimenetelmä, mutta olen sen oheen tehnyt myös interaktiivisen grafiikan, jonka avulla lukija voi itse arvioida, kertovatko pelkät numerot koko totuuden vaalituloksesta.

Grafiikassa voi valita vaaka- ja pystyakselille yhden kahdeksasta isoimmasta eduskuntapuolueesta, muiden puolueiden yhteisen äänisaaliin tai yleisen äänestysaktiivisuuden. Akselien arvot ovat siis muutoksia puolueen kyseisen äänestysalueen äänistä saamassa prosenttiosuudessa vuoden 2012 kuntavaalien ja viime sunnuntain eurovaalien välillä. Renkaiden värit viittaavat vaalipiiriin. Tarkemmat tiedot äänestysalueesta saa viemällä hiiren sitä kuvaavan renkaan päälle.

Jos vaaka- ja pystyakselille valittujen puolueiden vaalituloksen välillä on vahva yhteys niin, että toinen on selvästi vienyt ääniä toiselta, äänestysalueita kuvaavien renkaiden muodostaman pistepilven pitäisi muodostua kuvion lävistäjän ympärille. Vaaka- tai pystysuuntainen pilvi viittaa siihen, ettei yhteyttä puolueiden vaalimenestyksen välillä ole. (Tällaista kuviotyyppiä kutsutaan parvikuvioksi.)

Vihreiden ja vasemmistoliiton vaalimenestystä kuvaava kuvio on voimakkaasti pystysuuntainen, joka tarkoittaa, että vihreiden ääniosuus on vaihdellut paljon edellisistä vaaleista äänestysalueesta riippuen, kun taas vasemmistoliitto on parantanut ääniosuuttaan keskimäärin melko tasaisesti eri puolilla maata. Vahvaa yhteyttä ääniosuuden muutoksien välillä ei näy, korrelaatiokerroin saa arvon r = –0,15 jota ei voi pitää kovin suurena.

Sen sijaan vihreiden ja SDP:n vaalimenestyksen välillä näkyy huomattavasti vahvempi yhteys, r = –0,48. Vihreiden menestys korreloi melko voimakkaasti myös äänestysaktiivisuuden muutoksen kanssa: r = –0,41. Nopea tulkinta on, että SDP on menettänyt äänestäjiään vihreille, ~~mutta vihreät toisesta päästä nukkuvien puolueelle.~~ (Korjaus: Ensimmäisessä versiossa tähän oli lipsahtanut ajatusvirhe. Jos vihreät olisi menettänyt ääniä ennen kaikkea äänestysaktiivisuuden laskun kautta, korrelaatiokertoimen pitäisi olla positiivinen. Nyt tilanne on päin vastoin niin, että vihreät ovat erityisesti menestyneet niillä äänestysalueilla joilla äänestysaktiivisuus laski paljon kuntavaaleihin verrattuna.) Muitakin potentiaalisia selityksiä luvuille varmasti löytyy, mutta selkeästi yhteys vihreiden ja demarien äänimenestyksen välillä on paljon vahvempi kuin vihreiden ja vasemmiston välillä.

Muiden puolueiden vaalituloksen väliltä ei löydy yhtä vahvoja yhteyksiä. Vahvimmat yksittäiset taisteluparit ovat RKP & kokoomus (r = –0,29) ja perussuomalaiset & kokoomus (r = –0,30). Mielenkiintoinen yllätys on myös vasemmistoliiton ja keskustan pieni kilvoittelu (r = –0,23). Vasemmiston tuore meppi Merja Kyllönen menestyi erinomaisesti juuri Pohjois-Suomessa ja kilpaili äänistä varmasti paljon esimerkiksi Paavo Väyrysen kanssa.

Grafiikassa on vielä pieniä teknisiä virheitä, mutta sen muodostama yleiskuva lienee oikea. Eri asia on kuinka pitkälle meneviä johtopäätöksiä lukujen perusteella voi vielä tehdä. Kuntavaalit ja eurovaalit ovat luonteeltaan erilaisia ja äänestäjät saattavat valita puolueensa näissä vaaleissa kovinkin eri perustein. Toimikoon tämä kuitenkin pienenä datajournalistisena keskustelunavauksena vaalituloksen syvempään analyysiin. Lukijoilla on myös epäilemättä paljon kommentteja valittuihin analyysimenetelmiin ja grafiikan toteutukseen, jotka koitan sitten parhaani mukaan huomioida sitten seuraavassa versiossa. :)

Lisäys 28.4.: Työkaluun on nyt lisätty mahdollisuus tarkastella aiemman ääniosuuden absoluuttisen muutoksen (%-yksikköä) myös äänimäärän absoluuttista muutosta (kpl) sekä ääniosuuden suhteellista muutosta (% suhteessa kuntavaaleihin). Absoluuttisten äänimäärien tarkastelu tarjoaa heikompia korrelaatioita kuin aiempi ääniosuuden muutos, mutta edelleen vihreiden vahvin korrelaatio säilyy nimenomaan demareihin ja vihreät on myös ainut puolue jonka kanssa SDP:n tuloksella on selvästi nollasta poikkeava negatiivinen korrelatio, vaikka kerroin onkin pieni (r = –0,26). Vihreiden ja vasemmistoliiton valtakunnallinen korrelaatio on edelleen heikko. Vihreiden vahvimmilla alueilla Helsingissä ja Uudellamaalla vasemmisto näyttäisi ehkä jonkin verran rokottaneen vihreiden tulosta, mutta vihreiden tappio absoluuttisissa äänissä mitattuna on suurempi kuin vasemmiston voitto.

(Huomautettakoon että absoluuttisen äänimäärien vertaaminen äänestysaktiivisuuteen – joka tässä on annettujen äänten määrän prosentuaalinen lasku kuntavaaleista, ei muutos prosenttiyksikköinä – ei anna järkeviä tuloksia, koska äänestysaktiivisuuden ja isojen puolueiden absoluuttisen äänimäärän korrelaatio on suuri ja pienten puolueiden pieni johtuen ihan siitä miten korrelaatio lasketaan.) Itse asiassa näin ei ole, vaan absoluuttisten äänimäärien vertailu äänestysaktiivisuuteen paljastaa että vihreät ja RKP kärsivät vähiten laskeneesta äänestysaktiivisuudesta, kun taas muiden puolueiden tulos korreloi positiivisesti äänestysaktiivisuuden muutoksen kanssa.

2014-01-17

Helsingin kartta vuodelta 1770 + nykyinen rantaviiva

Helsingin kaupunkisuunnitteluvirasto on julkaissut Facebook-sivuillaan hienoja vanhoja karttoja Helsingistä. Tänään vuorossa oli vuonna 1777 julkaistu kartta. On kiehtovaa miten paljon kaupunki on muuttunut vajaassa 250 vuodessa. Vaikka paikannimistö on tuttua, harva katu kulkee enää samassa paikassa kuin tuolloin ja vielä harvempi rakennus on enää pystyssä.

Yksi suuri kaupunkikuvaan vaikuttanut tekijä on maantäytöt, joilla Helsingin rantaviivaa on muokattu viimeisen parinsadan vuoden aikana hurjasti. Hahmottaakseni itsekin paremmin, miten vanhan kartan paikat vastaavat nykyisiä tein kartasta version, johon on lisätty nykyinen rantaviiva (kuva aukeaa klikkaamalla isommaksi).

Koska 1700-luvun maanmittaustekniikat eivät olleet nykyisten veroisia, vanhan kartan vääristymät ovat melko isoja eikä nykyistä rantaviivaa saanut kohdilleen täsmällisesti. Olen sovittanut sen silmämääräisesti ja muutenkin suurpiirteisesti, joten kuva on lähinnä suuntaa-antava, mutta varmaan sellaisenaankin auttaa hahmottamaan muutosta.

2013-10-152013-10-16

Ydintuho sateenkaaren väreissä – vai kuvio aallonkorkeudesta?

Sosiaalisessa mediassa on viime aikoina levinnyt artikkeleita, joissa väitetään jatkuvien radioaktiivisen veden päästöjen Fukushiman ydinvoimalasta ”myrkyttävän koko Tyynenmeren”. Jokseenkin kaikissa näissä artikkeleissa käytetään kuvituksena oheista Yhdysvaltain sään- ja valtamerentutkimusorganisaation NOAAn tekemää kuviota. Dramaattisen näköinen grafiikka todellakin nopeasti katsottuna vaikuttaa esittävän Japanista aina Pohjois- ja Etelä-Amerikan länsirannikoille asti leviäviä vaarallisen näköisiä virtauksia.

Itse asiassa kyseinen kuvio ei liity radioaktiivisuuteen mitenkään. Se esittää Tyynenmeren aallonkorkeuksia heti vuoden 2011 tuhoisan maanjäristyksen jälkeen, eli kuvaa, kuinka järistyksen aiheuttama tsunami eteni. (Tähän viitaa myös yksikön ”cm” käyttö kartassa Etelä-Amerikan kohdalle sijoitetussa asteikossa.) Alla sama kuvio rajaamattomana ja hieman suurempana, sekä NOAA:n tuottama toinen versio siitä. Urbaanilegendojen ja muiden huhujen todenperäisyyden selvittämiseen erikoistunut sivusto Snopes selittää artikkelissaan tarkemmin, mistä on kyse.

Miksi aallonkorkeuksia esittävä kuvio on päätynyt tämän paikkaansapitämättömän pelonlietsonnan välineeksi? Keskeinen syy lienee kuvan hurja väriskaala, jonka katsoja assosioi helposti epätoivottaviin asioihin kuten myrkkyihin ja säteilyyn. Liuku räikeästä vihreästä punaisen kautta intensiiviseen purppuraan näyttää suorastaan hehkuvan tuhoisaa energiaa. Kun kuva irroitetaan alkuperäisestä yhteydestään, muodostuu sen vahvimmaksi viestiksi voimakas ja uhkaava vaikutelma mereen leviävistä ”saasteista”. NOAA:n logo yläkulmasta antaa kuvalle uskottavuutta ja onnettomasti taustaan hukkuva asteikko jää huomioitta. Neutraalimmalla väriskaalalla toteutettuna kuva tuskin olisi päätynyt huijauksen välikappaleeksi. Ohessa pikainen kokeilu, jossa kuvion väriskaalaa on muutettu hillitymmäksi ja taustakartta haaleamman sävyiseksi.

Voisiko Fukushiman vuoto edes teoriassa saastuttaa koko Tyynenmeren alueen? Ei. Asia selviää pienellä laskuharjoituksella.

Merivesi sisältää luonnostaan monia radioaktiivisia aineita. Yksinkertaisuuden vuoksi huomioimme laskelmassamme niistä vain uraanin, jota merivedessä on keskimäärin 3,3 milligrammaa kuutiometrissä. Nopea laskutoimitus kertoo että Tyynenmeren 707,5 miljoonaan kuutiokilometriin vettä on uraania liuenneena jo entuudestaan 2 300 miljoonaa tonnia.

Fukushimasta on tähän mennessä vuotanut mereen 300 tonnia saastunutta vettä ja sitä on voimala-alueella säilytyksessä vesisäiliöissä vielä 400 000 tonnia lisää. Ydinvoimalan omistavan TEPCO-sähköyhtiön mukaan veden radioaktiivisuus on ollut enimmillään 580 000 Bq/l, mikä vastaa noin kolmea grammaa uraania litrassa. Mereen tähän mennessä vuotanut radioaktiivinen vesi sisältää siis korkeintaan 972 kiloa uraania vastaavan määrän radioaktiivisia aineita. Entäpä jos TEPCO pimentääkin tietoa ja mereen vuotaa koko ajan lisää radioaktiivista vettä? Kuinka pahasti meri saastuisi, jos voimalasta vuotaisikin tuo 300 tonnia saastunutta vettä päivittäin? Tarkastellaan tätä hieman liioiteltua skenaariota graafisesti:

Uraanigrafiikka2

Huom! Grafiikka päivitetty 16.10. Ks. kommentti artikkelin lopusta.

(Omien suositustemme vastaisesti kuviossa on käytetty kolmiulotteista valeperspektiiviä, koska vertailtavien lukujen ero on niin valtava, että niiden esittäminen pylväs- tai aluekuviolla veisi liikaa tilaa.)

Ei tietenkään ole hyvä asia, että mereen valuu radioaktiivista vettä, mutta on ilmeistä, ettei Fukushiman vuoto mitenkään pysty saastuttamaan koko Tyyntä valtamerta. Pahimmissa kuviteltavissa olevissa skenaarioissa paikallinen tuho Japanin rannikolla voi olla järkyttävä, mutta meren toisella laidalla amerikkalaisten tai australialaisten ei tarvitse missään olosuhteissa pelätä radioaktiivisen saasten kulkeutuvan heille asti. Tämän hetkisillä tiedoilla vuoto tulee luultavasti näkymään kohonneena radioaktiivisuudessa tietyissä Tyynenmeren kaloissa, mutta ei niissäkään kovin vaarallisissa määrin. Täällä Suomessa on lisäksi hyvä muistaa, että maaperämme vuoksi altistumme luonnostaan huomattavasti enemmän radioaktiiviselle säteilylle kuin esimerkiksi Yhdysvaltojen länsirannikon asukkaat.

Ehkäpä tästä kaikesta voidaan oppia se, että grafiikan tekijöiden kannattaa tarkoin harkita, millaisen mielikuvan heidän grafiikkansa asiayhteydestä irroitettuna voi synnyttää. Lukijoiden taas kannattaa pitää mielessä lähdekritiikki, etenkin ennen kuin dramaattisia grafiikoita lähdetään jakamaan eteenpäin.

Korjaus 16.10.: Alkuperäisessä tekstissä puhuttiin virheellisesti miljardeista tonneista kun tarkoitettiin miljoonia tonneja. Sama virhe toistui myös grafiikan mittasuhteissa, ja on nyt korjattu. Keskustelua grafiikasta myös kommenteissa alla.

2013-03-082013-03-08

A misleading chart about Chávez’s legacy

FAIR has an entertaining piece critizising AP’s treatment of the late Venezuelan president Hugo Chávez. While I have some serious misgivings about the tendency of some left-leaning writers to skate over the awful human rights record of the Chavéz regime just because he was seen as a counterweight to the United States’ economic and foreign policy, it is certainly true that spending oil revenues on social programs instead of skyskrapers or museums is a sensible choice for a country like Venezuela. However, I take issue with the use of graphics in the FAIR article.

Accompanying the story is a graphic comparing the number of people living in poverty (defined here as a daily income of less than $ 2 at purchasing power parity) in Venezuela and Brazil:

Why is the vertical scale truncated at 10 %? And more importantly, why does the x-axis start at 2003? President Chávez took office in 1999 so wouldn’t that be a more relevant starting point? (I know the short answer to these questions that the graphic is a screenshot from World Bank’s website, but I still think it’s sloppy journalism to cut corners like this when it would have taken 5 minutes to download the relevant data and do the graphic in Excel.)

I downloaded the same World Bank data and did the graphic below, starting from 1998, a year before Chávez took office. I also added the data for Colombia and Mexico. I also added the data about U.S. oil price in real (inflation-adjusted) dollars per barrel as an inverted bar chart on the background to give context.

The World Bank data is somehat patchy, but by connecting the data points we have an interesting picture appears. In 1998 Brazil, Mexico and Venezuela had the same share of population living in poverty at roughly 20 %. In Colombia the share was some 7 percentage points higher. In the newest available data Brazil and Venezuela are roughly on par and Colombia is still trailing the two by the same amount as in 1998, whereas Mexico clearly has broken off the pack. Venezuela’s progress seems to be tracking the oil price curve whereas Mexico and Brazil show steadier, if less dramatic progress towards lower poverty rates.

The moral of the story is that it’s often possible to frame the data so that it supports your claim, whether true or not. Stepping back and showing more gives the audience the chance to judge for themselves. In this case it would seem that Venezuela did indeed make significant progress in reducing poverty during Chávez’s reign, but so did other oil exporting Latin American countries. Venezuela no more looks exceptional when showing a more complete set of data.

2012-12-022012-12-02

Can election results be predicted from the voters’ musical preferences?

The answer is probably: no. But that has not stopped me from creating this tongue-in-cheek analysis of the U.S. presidential election for Basso Magazine.

(Click on the picture to enlarge.)

Using a complicated and very unscientific method I calculated how well gigs played by artists touring the U.S. in the three months leading to the election predicted the result of each state. I scraped the concert data from Eventful.com API and cross-referenced that with the state-level election results, taking into account the margin of votes by which each state was won as well as the total number of concerts played in each state.

The index number for each artist was calculated by dividing the margin of win (in absolute votes, positive if for Obama and negative if for Romney) by total number of gigs in each state and awarding this number for all the artists who played a gig in the state. If an artist had more than one gig in a state, the second gig yielded only half of the index points, the third gig one third etc.

To feature on the final graphic the artist had to play gigs in at least ten states or states in which a total of 50 million votes or more were cast. More than one thousand artists qualified even with this limitation, so in the central part of the graphic only a select 70 artists are shown, chosen by their poplularity in Finland where the magazine is published. The final graphic was created in Nodebox and then finalized in Adobe Illustrator.

The artist who best predicted an Obama win was the reggae band Rebelution, whereas a Romney win was best predicted by a gig by the country singer Don Williams. The artist who least predicted win for either was Chris Isaak, probably best known for his 1990s hit ”Wicked Game”. The map below shows the gigs played by these three artists by state in the three months before the election.

(It should be noted that such apparent correlation is not an indication of the political preferences of the artists in question themselves. For example, a gig by Meat Loaf, who is a Romney supporter did not predict a win for Romney, whereas a gig by Weedeater did.)

What did we learn from all this? Probably not much – except I personally did learn quite a bit about data scraping! It was a fun excercise and I hope our readers know a little bit more about U.S. politics than they did before this. And just sayin’, but Nate Silver should maybe keep his eye on Rebelution and Don Williams in 2016! ;)

2012-11-072014-09-25

A little tool for making pictorial unit charts in Illustrator

Pictorial unit charts, like the ones Isotype made famous, is a nice alternative to conventional bar or area diagrams. However, actually making them if you’re working in Illustrator can require a good deal of handiwork and you might easily end up with the wrong amount of little guys when copying and pasting.

To make desinging pictorial unit charts a bit simpler I ended up writing a little snippet of JavaScript code that works with the neat Illustrator plugin Scriptographer. We decided to share it here, as some of our readers might find it useful.

Download unitsymbol-copy_selected.js here. When you first start Scriptographer, you will be presented with a dialogue window asking you to choose a folder for your own scripts. Put unitsymbol-copy_selected.js in that folder, so that Scriptographer can find it. Note that this is a very quickly made tool without much finesse, so feel free to improve! Anyhow, here’s how it works:

1. First you select a shape or symbol that you want to multiply (it also works with groups). I find working with Illustrator’s symbols to be very useful, since then it’s easy to change all individual instances of the same symbol at once when you update your unit figure after making a hundred copies.

2.Choose the script in the Scriptographer panel and press the play button to activate it. If you want to have a look at the code, just double-click the name of the script.

3. A dialog called Parameters appears. Here you set the number of columns and copies of the symbol (the value you will visualize). X- and Y-spacing are measured in points from the bounding box of the symbol, so if you want squares of 10 pt with 2.5 pt spacing between them you input 2.5 in the X- and Y-spacing fields.

Press create and you’ll see the specified amount of copies appear next to your original ‘source’ symbol.

Todos concerning the usability would be to have it accept different units for the spacing, and maybe it should also to give a choice of where to place the symbols. If one would want to make it really clever one would make it possible to update the parameters of created charts, but I suspect that might require writing a whole new plugin, so that’ll be something for another day.

2012-10-292012-11-10

Kuntavaaleissa oli vain häviäjiä

Kuntavaalien vaalistudiota katsellessa vaikutti siltä, että liki jokaisen puolueen puheenjohtaja oli sitä mieltä, että juuri hänen puolueensa selviytyi näistä vaaleista voittajana: suurin ääniosuus, eniten valtuutettuja, pienin pudotus ääniosuudessa, liikkuvaan junaan hypänneeltä uudelta puheenjohtajalta huima tulos… Käytännön politiikan teon kannalta valtuustopaikat ratkaisevat ja siinä valossa moni näistä selityksistä voi olla järkeenkäypä. Jos kuitenkin katsotaan eri puolueiden kansalaisilta saamaa mandaattia, voi todeta, ettei näissä vaaleissa ollut kuin häviäjiä.

Vaalien äänestysprosentti, 58,2 %, on aivan surkea. Puolueet paukuttelevat nyt henkseleitään kun ovat saaneet ison siivun pienestä kakusta. Mutta kun katsotaan kuinka moni äänestäjä antoi kullekin puolueelle äänensä, lopputulos on että mikään, siis mikään puolue ei onnistunut keräämään lisää äänestäjiä verrattuna sekä edellisiin kuntavaaleihin 2008 että viimeisimpiin vaaleihin, jotka olivat siis vuoden 2011 eduskuntavaalit. (Presidentinvaaleja en pidä vertailukelpoisena koska niissä puoluetaustan rooli on vähäisempi.) Perussuomalaiset paransivat kyllä äänisaalistaan viime kuntavaaleihin verrattuna, mutta eduskuntavaaleihin verrattuna puolueen äänestäjien määrä on lähes puolittunut.

Oheiseen taulukkoon ja sen lukujen pohjalta laadittuun grafiikkaan on listattu nämä madonluvut. (Luvut on painotettu kussakin vaalissa äänioikeutettujen määrän mukaan, eli tarkalleen ottaen ilmoitettu muutos on puolueen saamassa osuudessa kaikkien äänioikeutettujen äänistä, ei absoluuttisissa äänimäärissä.)

	muutos 2008–	muutos 2011–
Kokoomus	–11,4 %	–12,1 %
SDP	–12,5 %	–16,1 %
Perussuomalaiset	+58,7 %	–47,0 %
Keskusta	–11,8 %	–3,0 %
Vihreät	–9,4 %	–3,7 %
Vasemmistoliitto	–13,4 %	–19,4 %
RKP	–4,7 %	–9,6 %
Kristillisdemokraatit	–15,2 %	–24,1 %
Suomen Työväenpuolue	–27,5 %	–72,8 %
Itsenäisyyspuolue	–13,8 %	–60,8 %
Köyhien Asialla	–47,8 %	–58,8 %
Piraattipuolue	—	–61,8 %
Vapauspuolue	—	–99,7 %
Muutos 2011	—	–83,8 %
Suomen Kommunistinen Puolue	–22,1 %	+17,1 %
Kommunistinen Työväenpuolue	–35,5 %	–56,7 %
Muut ryhmät	–37,4 %	+83,5 %

Ainoat puolueet, joiden saama äänimäärä on laskenut alle kymmenyksellä molemmista vertailuvaaleista ovat vihreät ja rkp ja nekin vain juuri ja juuri. Eipä ole hurraamista.

Kyllä poliitikoilla on tässä iso peiliin katsomisen paikka. Koko demokraattisen järjestelmämme legitimiteetti on koetuksella, jos tällainen kehitys jatkuu.

______________________________

Lisäys 29.10.2012

Tässä vielä painottamattomat luvut, eli siis muutokset puolueiden saamien äänten kappalemäärissä. Yleiskuva säilyy aika pitkälti samana. Keskusta ja vihreät ovat nollatuloksessa edellisiin eduskuntavaaleihin verrattuna ja kaikki miinusprosentit pienenevät hieman painotettuihin lukuihin verrattuna, mutta aika surkealta tulos näyttää näinkin arvioituna.

	muutos 2008–	muutos 2011–
Kokoomus	–9,1 %	–9,1 %
SDP	–10,1 %	–13,2 %
Perussuomalaiset	+61,5 %	–45,1 %
Keskusta	–9,4 %	+0,3 %
Vihreät	–7,0 %	–0,4 %
Vasemmistoliitto	–11,1 %	–16,6 %
RKP	–2,1 %	–6,5 %
Kristillisdemokraatit	–12,9 %	–21,5 %
Suomen Työväenpuolue	–25,6 %	–71,8 %
Itsenäisyyspuolue	–11,5 %	–59,5 %
Köyhien Asialla	–46,4 %	–57,5 %
Piraattipuolue	—	–60,4 %
Vapauspuolue	—	–99,7 %
Muutos 2011	—	–83,2 %
Suomen Kommunistinen Puolue	–20,1 %	+21,1 %
Kommunistinen Työväenpuolue	–33,8 %	–55,2 %
Muut ryhmät	–35,7 %	+88,1 %

2012-09-102012-10-29

Potilastietojärjestelmähankkeen kustannusten mittakaava

Informaatiomuotoilu.fi tuo oman panoksensa sosiaalisessa mediassa viime päivinä kuumana käyneeseen keskusteluun Suomeen hankittavaksi suunnitellusta potilastietojärjestelmästä. Hankkeeseen liittyy paljonkin erilaisia merkittäviä kysymyksiä, joita esimerkiksi helsinkiläinen kunnallisvaaliehdokas Otso Kivekäs on tuonut esiin blogissaan. (Full disclosure: olen itse mukana Otson kunnallisvaalikampanjan tukiryhmässä.) Me keskitymme niistä kuitenkin vain yhteen eli hankkeen arvioituihin välittömiin kustannuksiin.

Konsulttiyhtiö Accenturen Sitralle laatimassa selvityksessä on arvioitu, että hankinnan kokonaisarvo olisi 1,2–1,8 miljardia euroa jos ja kun järjestelmä otettaisiin käyttöön kaikissa Suomen sairaanhoitopiireissä. Tämä on valtava summa. Esimerkiksi Kirsi Louhelainen, myös kunnallisvaaliehdokas (Espoossa), vertasi summaa NASA:n avaruussukkulaohjelman tietojärjestelmän kustannuksiin. Esa Heiskanen vuorostaan laski, että 1,8 miljardilla saisi suomalaisilta it-yrityksiltä hankittua työtä noin 14 000 henkilötyövuoden verran. Esimerkiksi Microsoftin Windows 7 -käyttöjärjestelmää oli kehittämässä joidenkin arvioiden mukaan 2 000 ohjelmoijaa noin kolmen vuoden verran. Vaikka ohjelmistoprojekteissa työvoiman lisääminen ei takaa parempia tuloksia vaan usein päinvastoin, antaa jotain käsitystä hankkeen kaavaillusta mittakaavasta että siihen ollaan potentiaalisesti investoimassa enemmän työtä kuin kokonaisen käyttöjärjestelmän kehittämiseen.

Helpoiten mittakaavan hahmottaa kuitenkin visuaalisesti. Seuraavassa potilastietojärjestelmän ennustettu 1,2–1,8 miljardin kokonaiskustannus on suhteutettu muutamiin poliittisessa keskustelussa intohimoja herättäneisiin valtion ja pk-seudun kuntien menoeriin.

Jos suunniteltu hanke onnistuu kaikissa tavoitteissaan, 1,8 miljardin investointi on toki hyvin perusteltu. Mm. valtiontalouden tarkastusvirasto on kiinnittänyt huomiota siihen, että käyttäjäystävällisemmät ohjelmistot toisivat mittavia säästöjä terveydenhuoltoon. Mutta kuinka todennäköistä on, että hanke todella onnistuu kaikissa tavoitteissaan? Ainakaan se ei ole itsestäänselvää. Toisessa vaakakupissa on se riski, että hanke voi myös epäonnistua todella pahasti, myös taloudellisesti.

Jos katsotaan muutamia otsikoissa olleita julkishallinnon it-hankkeita, ei vaikuta kovinkaan tavattomalta että alkuperäiset kustannusarviot ovat osoittautuneet melko optimistisiksi:

Hanke	Alkup. kust.arvio	Viimeisin kust.arvio	Ylitys
Valtionhallinnon dokumentinhallinta ja arkistointi -hanke (VALDA)	5,5 milj. €	9 milj. €	64 %	Lähde 1, 2
Ulosoton tietojärjestelmähanke	6 milj. €	16 milj. €	167 %	Lähde
Sähköinen kuljettajarekisteri	20 milj. €	100 milj. €	400 %	Lähde
Puolustusvoimien atk-, tulostus- ja kopiointjärjestelmien ulkoistaminen	14 milj. €	72 milj. €	414 %	Lähde
Kansallinen tietoarkisto ja sähköinen resepti (KANTA)	20 milj. €	450 milj. €	2 150 %	Lähde

Rehellisyyden nimissä on todettava, että tähän listaan on tietysti poimittu vain pahimpia epäonnistumisia. Mainiosti onnistuneista hankinnoista ei revitä samanlaisia otsikoita. Silti, worst case -skenaarionkin mahdollisuus ansaitsee osakseen hieman pohdintaa. Näiden viiden VTV:n moittiman hankkeen keskimääräinen kustannusten ylitys oli uskomattomat 639 %. Lisäksi pitää huomioida, että luvuissa ei ole mukana kuin suorat lisäkustannukset, ei viivästymisestä ja huonolaatuisesta lopputuloksesta johtuvia välillisiä kustannuksia. Esimerkiksi VALDA-järjestelmä ajettiin lopulta kokonaan alas eli siihen käytetyt 9 miljoonaa olivat kokonaan hukkaan heitettyä rahaa.

On tietysti pelkkää spekulointia ja kauhuskenaarioiden maalailua väittää, että uuden potilastietojärjestelmän kustannukset, edes välilliset kustannukset huomioiden karkaisivat näin pahasti käsistä. Mutta ajatusleikkinä, entä jos järjestelmän hankinta todella menisi yhtä pahasti puihin kuin yllä kuvatut hankkeet ja ylittäisi budjetin tuolla 639 prosentilla? Silloin kokonaiskustannus olisi 13,3 miljardia euroa ja vertailukohtia pitäisi hakea jo varsin hurjasta suuruusluokasta:

Korostan, että yllä oleva kuva ei ole tarkoitettu realistiseksi arvioksi siitä, miten voi käydä jos tähän hankintaan lähdetään. On silti hyvä muistaa, miten monia pahoja epäonnistumisia julkisen sektorin it-hankinnoissa on tehty ja että jos nyt pohdittavana oleva projekti menee yhtä pahasti kiville, hintalappu on aivan mieletön.

Kun puhutaan näin suurista asioista, tarvittaisiin syvällisempää julkista keskustelua hankinnasta ja sen toteutustavasta kuin mitä tähän asti on nähty. Ei ole oikein, että miljardiluokan hankintaa joka määrittelee suomalaisen terveydenhoidon toimintaedellytyksiä vuosiksi eteenpäin viedään eteenpäin kulissien takana ja luottamushenkilöiden oletetaan toimivan kumileimasimena joka ei kyseenalaista tehtyjä päätöksiä. Toivon vilpittömästi, että Helsingin terveyslautakunta huomisessa kokouksessaan palauttaa asian uudelleen valmisteltavaksi ja siitä käydään se julkinen keskustelu jonka tämän mittakaavan hankinta vaatisi.

______________________________

Lisäys 10.9.2012

Meiltä on aiheellisesti kysytty, miksi käytämme yllä olevissa kuvioissa pinta-aloja kuvaamaan summia pituuden, siis tavallisen pylväskuvion sijaan. Onhan alalla yleisesti tunnettu fakta, että ihmiset ovat huomattavasti parempia havaitsemaan eroja pituudessa kuin pinta-alassa. Pinta-alaerot yleensä aliarvioidaan varsin reippaasti. Alla ensimmäisen laatikkokuvion tiedot myös perinteisen pylväskuvion muodossa:

Tämä kuvio antaa pienen vihjeen siitä, miksi tällä kertaa päädyimme käyttämään laatikoita pylväiden sijaan. Ennen kaikkea kyse on tilankäytöstä: nimiöt ovat niin pitkiä, että pylväskuviona esitettynä tärkein asia eli elementtien koot ei saa ansaitsemaansa visuaalista painoarvoa. Ja vaikka valittu esitystapa hieman ”vähätteleekin” kokoeroa vertailukohtiin, potilastietojärjestelmän hinta-arvio on niin poskettoman suuri että kuvion viesti tulee selväksi joka tapauksessa.

Kriitiikki on silti perusteltua. Taisimme itse sortua hieman siihen, mistä olemme usein muita kritisoineet: esitystavan näyttävyyden korostamiseen tiedonvälityksellisten kriteerien sijaan.