Uusi ulkoasu, uudet kujeet

Informaatiomuotoilu.fi on saanut uuden vuoden kunniaksi uuden ulkoasun. Jotkin vanhemmat kirjoitukset saattavat näyttää vähän erikoisilta ja muitakin pieniä ulkoasuvirheitä saattaa vielä paljastua. Mikäli löydätte virheitä, vinkatkaa niistä tähän alle kommentteihin, Twitterissä tai sähköpositse: juuso@informaatiomuotoilu.fi / jonatan@informaatiomuotoilu.fi. Uutta sisältöä on luvassa ensi viikolla 6.

Sivuston ylälaidan kuvana on muuten sisävesikartta Saimaalta vuodelta 1892. Se on osa Kansalliskirjaston Suomen karttoja ja kartastoja -kokelmaa.

Tieto näkyväksi -kirja on nyt myynnissä

Informaatiomuotoilu.fi-blogi perustettiin viisi vuotta sitten kirjaprojektin kylkiäiseksi. Paljon on ehtinyt noina vuosina tapahtumaan ja niin kirja kuin blogikin ovat vuosien varrella muuttaneet muotoaan moneen otteeseen. Sivusto on viettänyt hiljaiseloa viimeiset 1,5 vuotta tekijöiden monista kiireistä johtuen, mutta suurimpana syynä on ollut juuri kirjan kirjoittaminen, joka on vienyt merkittävän osan suunnittelutyöltä ja opettamiselta yli jääneestä ajastamme.

Tänään on se päivä kun kirja on lopulta valmis ja painettu. Se sai lopulta nimekseen Tieto näkyväksi vuodesta 2012 asti järjestämämme seminaarin mukaan. Kustantajana on Aalto ARTS Books ja kirja on nyt myynnissä kustantajan verkkokaupassa. Jälleenmyyjille kirjaa saadaan ensi viikolla. Kirjan johdantoluku on vapaasti ladattavissa.

Nyt kun kirja on valmis, myös blogissa alkaa vähitellen tapahtua. Sivusto saa uuden ilmeen loppualkuvuodesta ja alamme jälleen tuottaa myös sisältöä siihen. Tästä myöhemmin lisää. Sitä odotellessa kuulumisiamme voi seurata mm. täällä:

https://www.facebook.com/koponenhilden/
https://twitter.com/koponenhilden
https://www.instagram.com/koponenhilden/

dsc03090-juuso-koponen

Lisäkommentteja perussuomalaisten maahanmuuttoraportista käytyyn keskusteluun

Eilen julkaistua kirjoitustani perussuomalaisten ajatushautomon Suomen Perustan julkaisemasta, maahanmuuton vaikutuksia julkiseen talouteen käsittelevästä raportista Maahanmuutot ja Suomen julkinen talous on luettu ja jaettu kiitettävästi. Tätä kirjoittaessa sivulatauksia on kertynyt yli 12 000, millä määrällä juttu yltää blogimme historian luetuimmaksi. Maahanmuutto aiheena kiinnostaa mitä ilmeisimmin enemmän kuin vaikkapa Suomen karttakuvan kehitys. :)

Keskustelua kirjoituksesta on käyty mm. alkuperäisen artikkelin kommenttiosiossa. Raportin laatinut Samuli Salminenkin esitti joitakin kriittisiä huomautuksia tekemistäni tulkinnoista. Keskustelun sävy on ollut paikoin kipakka, mutta toistaiseksi jokseenkin asiallinen. Tänään Yle Uutiset teki myös nettijutun, jossa Salmiselta pyydettiin kommentteja esittämiini väitteisiin.

Käydyn keskustelun perusteella tulin siihen tulokseen, että on ehkä hyvä yrittää vielä tiivistää ja selkeyttää esittämiäni näkemyksiä, koska tuntuu että Salminenkaan ei aivan ole ymmärtänyt mihin kritiikkini kärki kohdistuu. Lisäksi kommenttiosiossa käydyn keskustelun myötä havaitsin erään minulta aiemmin huomaamatta jääneen seikan, joka vaikuttaa olennaisesti analyysiin.

Keskeneräisenä julkaistu selvitys on altis tulkintavirheille

Raportti on julkaistu ilmeisen keskeneräisenä. Vielä pari päivää ennen sen julkaisua perussuomalaisten Facebook-sivuilla julkaistiin video, jossa arveltiin, että torstaina joudutaan näyttämään eläinvideoita, koska selvitys ei valmistu ajallaan. Ilmeisesti paine saada jotain ulos johti siihen, että laajempi kokonaisuus pilkottiin kahteen osaan (raportin kakkososaa lupailtiin torstain tilaisuudessa julkaistavaksi tällä viikolla).

Ensimmäinenkään osa ei vaikuta aivan loppuun asti hiotulta. Esimerkiksi: ”Kaikki tutkimukseni merkittävimmät ja pääasialliset tulokset on on saatu 20–62-vuotiaista. 7–70-vuotiaiden vertailu oli sellainen kokeilu ja valmistelua elinkaarimallia varten”, sanoo Salminen Ylen haastattelussa. Hän on kuitenkin päättänyt otsikoida tätä kokeilua käsittelevän luvun ”Tulokset”, joten ei välttämättä ole pelkästään lukijan vika jos tämä erehtyy luulemaan, että nimenomaan tuo 7–70-vuotiaiden vertailu olisi tutkimuksen ydinainesta.

Jos tutkija itse olisi malttanut pitäytyä työikäisten vertailussa eikä ottaa 63–70-vuotiaita mukaan muutenkin kokonaisuudessa irralliselta tuntuvaan tutkimuksen lukuun 7, olisin ehkä minäkin lähestynyt aihetta toiselta kantilta. Nyt julkaistussa tekstissä on kaksi metodologisesti ja ikärajaukseltaan toisistaan poikkeavaa osiota, joiden keskinäinen suhde jää lukijalle epäselväksi ja altistaa väärintulkinnoille. (Tästä lisää tuonnempana.)

Alkuperäisessä kirjoituksessani oli kaksi pääpointtia:

  1. Koko aikusväestöä tarkasteltaessa Suomessa syntyneiden vaikutus julkiseen talouteen on huonompi kuin maahanmuuttajien
  2. Laskentatapa, joka tuottaa koko aikusväestön nettovaikutukseksi julkiseen talouteen –31,6 miljardia euroa kun todellisuudessa julkisen talouden alijäämä oli tarkasteluvuonna vain 2 miljardia on virheellinen

Käyn ne seuraavassa läpi Salmisen esittämän kritiikin valossa.

Koko aikuisväestöä tarkasteltaessa saadaan eri tuloksia kuin vain työikäisiä tarkasteltaessa

Salminen kritisoi tekemääni analyysiä Ylen haastattelussa näin: ”Koposen tekemässä vertailussa on myös se virhe, että hän on ottanut mukaan työikäisiä ja ei-työikäisiä.” Ei se ole mikään virhe, vaan toinen pääpointeistani.

Salmisen laskelma osoittaa – jos se on oikein tehty (ks. alempaa) – että työikäisen väestön keskuudessa maahanmuuttajien vaikutus julkiseen talouteen on huonompi kuin kantaväestön. Tätä en ole kiistänyt. Tämän tuloksen kiistämisen täytyisi perustua alkuperäisen datan uudelleenanalysoimiseen, ja kuten Salminen itse haastattelussa totetaa, hänellä on ollut käytössään ”rekisteriaineisto, jota ei ole ulkopuolisilla henkilöillä”. En ole ammatiltani tutkija, ja vaikka olisinkin, tällaisen analyysin tekemiseen menisi paljon enemmän aikaa kuin pääsiäsen pyhien luppohetket. Tulemme varmasti näkemään tulevaisuudessa erilaisia analyysejä työikäisten maahanmuuttajien aiheuttamista kustannuksista jotka joko vahvistavat tai kumoavat nyt julkaistun raportin tiedot, mutta minä jouduin olosuhteiden pakosta rajaamaan tarkasteluni sellaisiin kysymyksiin, joista on valmista dataa saatavilla.

Minun pointtini ei ollut, että työikäisten maahanmuuttajien tase olisi välttämättä jotain muuta kuin mitä Salminen sanoo, vaan nimenomaan että koko aikuisväestön tase on kantaväestöllä huonompi Salmisen omilla luvuilla laskettuna, koska kantaväestön ikärakenne on epäedullisempi kuin maahanmuuttajilla. Tämä selviää hyvin yksinkertaisella laskutoimituksella: otetaan Salmisen tutkimuksesta sivulta 82 löytyvästä taulukosta ulkomaalaisten ja suomalaisten nettovaikutukset henkeä kohden ja kerrotaan Tilastokeskuksen tietokannasta löytyvillä henkilömäärillä kotimaisten ja vieraiden kielten puhujien joukossa. Tämä luku voidaan vielä jakaa ihmisten kokonaismäärillä, jolloin saadaan keskimääräinen vaikutus henkeä kohden.

”Tämän henkilön kritiikin mukaan vertailuun voitaisiin ottaa vaikka mielivaltainen joukko 0–50-vuotiaat”, kritisoi Salminen Ylen haastattelussa. Eikä voitaisi. ”Kaikki aikuiset” ei ole mielivaltainen joukko. 

Nähdäkseni käyttämääni laskentatapaa kohtaan voidaan esittää kaksi perusteltua vasta-argumenttia:

  1. Tutkimuksen eläkeläisille lasketut luvut on laskettu 20–62-vuotiaille eläkeläisille, joten niitä ei voi käyttää yli 62-vuotiaiden eläkeläisten nettovaikutuksen arvioimiseen. Tämä on tietenkin periaatteessa ihan totta, mutta vanhempien eläkeläisryhmien nettovaikutus lienee pikemminkin 20–62-vuotiaita eläkeläisiä voimakkaammin negatiivinen pitempään kerrytetyn ja siten suuremman työeläkkeen, sekä suremman sairaanhoito- ja hoivapalvelujen tarpeen vuoksi. (20–62-vuotiaiden eläkeläisten ryhmässä on siis yli 62-vuotiaiden ryhmää enemmän ennenaikaiselle eläkkeelle jääneitä, joille ei ole kertynyt yhtä paljon työeläkettä kuin täyden työuran tehneille, ja vähemmän vanhustenhoidon palveluita tarvitsevia.) Jos käyttämäni laskentatapa siis vääristää tuloksia, se vääristää niitä luultavasti maahanmuuttajien kannalta epäedullisempaan suuntaan.
  2. Lasten jättäminen pois laskuista vääristää lukuja, koska lapset aiheuttavat julkisen talouden näkökulmasta vain kuluja ja maahanmuuttajilla on enemmän lapsia kuin kantaväestöllä. Tämäkin on sinänsä totta, mutta vaikutus on pieni. Laskisin mielelläni luvut koko väestölle, lapset mukaan luettuna, mutta se ei ole mahdollista käytössäni olevalla datalla. Lasten vaikutus ei ole kovin merkittävä, sillä itse asiassa ero ulkomaalaisten ja suomalaisten lapsimäärässä ei ole kovin suuri. Kotimaisten kielten puhujista 16,4 % on 0–14-vuotiaita, vieraiden kielten puhujista 18,0 %; eroa siis vain 1,6 %-yksikköä. (Vertailun vuoksi voidaan todeta, että eläkeläisiä on kotimaisten kielten puhujista 25,0 % ja vieraskielisistä 4,3 %; ero 20,7 %-yks.) Valistuneena arvauksena uskallan myös heittää, että yhden eläkeläisen nettovaikutus selvästi suurempi kuin yhden lapsen.

Salmisen laskutapa tuottaa absurdeja tuloksia

Kun Salmisen työikäiselle väestölle laskemat luvut laajennetaan koskemaan koko aikuisväestöä, saadaan koko väestön nettovaikutukseksi julkiseen talouteen –31,6 miljardia euroa.

Salminen kritisoi käyttämääni laskentatapaa blogin kommenttiosiossa näin:

Koponen esittää tutkimuksen sivun 82 keskiarvot oikein tekstissään. Jotta keskiarvoista saadaan oikeat summaluvut, ne pitää kuitenkin kertoa oikeilla henkilölukumäärille. Sivun 82 taulukon oikeat henkilölukumäärät on esitetty tutkimuksen liitetaulukossa 1 sivulla 97. Kertomalla sivun 82 taulukon keskiarvot liitetaulukon 1 henkilölukumäärillä päästään oikeisiin summalukuihin. Sen sijaan kertomalla sivun 82 taulukon keskiarvot joillain mielivaltaisilla henkilölukumäärillä, päästään sen sijaan ”absurdeihin lukuihin”, kuten Koponen tekee tekstissään.

Sivulla 82 ovat siis henkeä kohden lasketut nettovaikutukset ja sivulla 97 työikäisten (20–62-vuotiaiden) määrät. Tehdään Salmisen mieliksi laskelma, jossa sivun 82 luvut kerrotaan todellakin sivun 97 luvuilla.

Ensin ulkomailla syntyneet:

Opiskelijat Työlliset Työttömät Eläkeläiset Muut
henkeä 17 672 120 830 21 249 4 293 41 747
euroa/hlö –13 465 € +2 742 € –17 594 € –26 692 € –8 734 €
yhteensä –238,0 milj. € +331,3 milj. € –373,9 milj. € –114,6 milj. € –364,6 milj. €

Ulkomailla syntyneiden nettovaikutuksen loppusummaksi tulee –759,7 miljoonaa euroa, eli tuo paljon puhuttu 700 miljoonaa, joka näkyy kohteliaasti hieman pyöristetyn pienemmäksi perussuomalaisten puheissa.

Sitten suomalaiset. Jostain syystä suomalaisten kokonaismääriä eri ryhmissä ei sivun 97 taulukosta ilmene, vaan ainoastaan tutkimusotokseen sattuneiden määrät. Mutta eipä hätää, Tilastokeskuksen tietokannasta Väestö pääasiallisen toiminnan, sukupuolen, iän (1-v) ja vuoden mukaan 1987–2013 voidaan poimia kaikkien Suomessa asuvien määrät kohorteittain. Otetaan siis sieltä 20–62-vuotiaiden määrät vuonna 2011 ja vähennetään edellisestä taulukosta ilmenevät ulkomaalaisten määrät, niin saadaan suomalaisten luvut:

Opiskelijat Työlliset Työttömät Eläkeläiset Muut
henkeä 142 333 2 128 977 224 453 217 068 124 378
euroa/hlö –17 017 € +5 337 € –12 568 € –24 254 € –11 242 €
yhteensä –2 422,1 milj. € +1 1362,4 milj. € –2 820,9 milj. € –5 264,8 milj. € –1 398,3 milj. €

Suomalaisten yhteenlasketuksi nettovaikutukseksi saadaan –543,7 miljoonaa euroa.

Tämä on aivan yhtä absurdi lopputulos kuin alkuperäisen laskelmani –31,6 miljardia euroa, koska se tarkoitaa että työikäisen väestön nettovaikutus on kokonaisuutena negatiivinen (yht. –1,3 miljardia). Koska julkisen talouden sektoritilinpidon loppusumma oli vuonna 2011 –2 miljardia, ja pelkästään perus- ja esiopetuksen menot, muista lapsien aiheuttamista kustannuksista puhumattakaan olivat 2,5 miljardia, tämä tarkoittaisi, että yli 62-vuotiaiden eläkeläisten pitäisi maksaa keskimäärin enemmän veroja kuin mitä he saavat eläkkeitä ja julkisia palveluja, jotta summat menisivät tasan. Näin ei todellakaan ole, kuten jokainen hyvin ymmärtää.

On siis ilmeistä, että Salmisen käyttämä laskentatapa on pielessä, koska se hukkaa merkittävän osan tuloista johonkin.

Laskelma ei huomioi työnantajan eläkemaksuja

Blogin kommenttiosiossa käydystä keskustelusta hoksasin lopulta yhden merkittävän tuloerän, joka on laskelmasta jätetty pois: työnantajan eläkemaksut. Koska tutkimuksen 7-luvussa (joka on siis nimetty ”Tulokset”) sanotaan ”olen ottanut julkisen talouden nettovaikutuksia laskiessani mukaan tulopuolelle myös työnantajien maksamat eläkevakuutusmaksut”, oletin tietysti yksinkertaisena ihmisenä, että nämä eläkemaksut olisi huomioitu myös edeltävissä luvuissa, joissa arvioidaan nettovaikutuksia yksilötasolla. Näin ei tarkemmalla lukemisella kuitenkaan ole. Sivulla 25 tosiaan sanotaan:

Tutkimuksen ensimmäisessä osassa (toteutuneet julkisen talouden tulot ja menot) ei ole ilman erillistä mainintaa mukana työnantajien maksamia pakollisia eläkevakuutusmaksuja, sillä ne ovat tutkimuksen määritelmien kannalta hankalia, sillä niitä ei peritä henkilöiltä (palkansaajilta) itseltään. Lisäksi tutkimuksen ensimmäisessä osassa keskityn lähinnä työikäisten, 20–62-vuotiaiden väestöjen tutkimiseen, jolloin mukana on suurin osa työeläkejärjestelmän henkilöiltä saamista tuloista, muttei toisaalta menopuolta maksettujen eläkkeiden muodossa.

Pahoittelen, etten ensimmäisellä lukemisella havainnut tätä rajausta vaan erheellisesti kuvittelin, että työnantajan eläke- ja sosiaaliturvamaksut olisi otettu mukaan julkisen sektorin tuloina. Työeläkeyhtiöt luetaan Suomessa budjettitalouden näkökulmasta julkiseen sektoriin ja nämä maksut ovat jo määritelmällisestikin osa verokiilaa, joten Salmisen tekemä ratkaisu on poikkeuksellinen, ja riittää jo yksinään selittämään tuon ulkomaalaisten 759,7 miljoonan euron negatiivisen nettovaikutuksen.

Paljonko työeläke- ja sosiaaliturvamaksujen jättäminen pois vääristää tuloksia?

VATT:n raportista Maahanmuutajien integroituminen Suomeen ilmenee (kuvio 6b), että maahanmuuttajien keskimääräiset palkka- ja yrittäjätulot aikuista (15–70 v.) kohden olivat suuruusluokkaa 13 500 €/v. Tämä tarkoittaa yhteensä noin 3 miljardin summaa, josta voidaan arvioida maksetun Salmisen laskelmista puuttuvia eläke- ja sosiaaliturvamaksuja suunnilleen… 750 miljoonaa euroa!

Korostettakoon vielä, että vaikka työnantajan sosiaaliturvamaksut huomioitaisiin laskelmassa, alkuperäisestä n. 30 miljardin heitosta väestön laskennallisen nettovaikutuksen ja toteutuneen julkisen sektorin alijäämän välillä ne selittäisivät vain n. 17 miljardia. Vielä puuttuu 13 miljardia. Raportissa käytetty laskentatapa tuottaisi siis edelleen aivan liian synkkiä lukuja, vaikka sitä korjattaisiin huomioimaan kaikki verokiilan osat julkisen sektorin tuloina, kuten tietenkin pitäisi.

Kun kerran yhteisesti kulutetut hyödykkeetkin on pystytty jyvittämään eri väestöryhmille, niin eiköhän myös sellaiset tulotkin voida ottaa mukaan laskelmaan, joita ei pystytä suoraan kohdistamaan. Luontevaa olisi vaikka vähentää nämä tulot yhteisesti kulutetuista menoista ennen menojen jyvitystä.

tl;dr

Suomalaissyntyisten vaikutus julkiseen talouteen on henkeä kohden huonompi kuin maahanmuuttajien johtuen erilaisesta väestörakenteesta.

Jos rajataan tarkastelu vain työikäiseen väestöön, saattaa hyvin olla juuri niin kuin Salminen sanoo, eli että työikäisten maahanmuuttajien nettovaikutus on työikäistä kantaväestöä huonompi ja joidenkin maahanmuuttajryhmien erittäinkin huono. Tämä on itsessään kiinnostava tulos, jolla on myös poliittisia implikaatioita.

Salmisen laskelmasta puuttuu kuitenkin merkittävä tulopuolen menoeriä, mm. työnantajan eläkevakuutusmaksut, jonka vuoksi esimerkiksi Matti Putkosen useaan kertaan toistama väite maahanmuuttajien aiheuttamista 700 miljoonan vuosittaisista kuluista ei pidä paikkaansa.

Perussuomalaisten maahanmuuttoraportin loppusummat perustuvat silmänkääntötemppuun

Perussuomalaisten ajatushautomon laatiman selvityksen loppupäätelmä nojaa tarkoitushakuiseen väestörajaukseen, jolla vanhimmat ikäryhmät siivotaan pois tilastoista. Kun tarkasteluun otetaan aikusväestö kokonaisuudessaan, kantaväestön nettovaikutus julkiseen talouteen on raportin omilla luvuilla laskettuna maahanmuuttajia huonompi.

Perussuomalaisten ajatushautomo Suomen Perusta julkaisi ennen pääsiäistä maahanmuuton vaikutuksia julkiseen talouteen käsittelevän raportin Maahanmuutot ja Suomen julkinen talous. Tutkimus pyrkii selvittämään maahanmuuttajien aiheuttamat ”julkisen talouden nettovaikutukset”, eli paljonko jää loppusummaksi kun eri maahanmuuttajaryhmien tuottamasta taloudellisesta hyödystä vähennetään aiheutetut kustannukset.

Aivan alkajaisiksi täytyy kiittää raportin laatinutta Samuli Salmista hänen tekemästään mittavasta työstä. Selvitys lienee tähän mennessä yksityiskohtaisin Suomessa tehty yritys arvioida maahanmuuton kokonaiskustannuksia. Metodologisesti se on varsin läpinäkyvä ja helposti sellaisenkin henkilön arvioitavissa, joka ei ole kvantitatiivisen yhteiskuntatutkimuksen asiantuntija (esim. allekirjoittanut).

Harmi kyllä, tutkimuksen loppupäätelmänä mm. raportin julkistustilaisuudessa esitetty arvio – maahanmuutto kokonaisuutena aiheuttaa Suomelle 700 miljoonan vuosittaiset kustannukset, kun taas kantaväestön nettovaikutus henkeä kohden on lähellä nollaa – on saatu aikaiseksi tilastollisella silmänkääntötempulla.

Ikärajaus kaunistelee suomalaissyntyisten lukuja

Tutkimuksen alkuosassa käsitellään 20–62-vuotiaiden, ulkomailla syntyneiden aiheuttamaa nettovaikutusta henkeä kohden viidessä eri ryhmässä: työlliset, työttömät, opiskelijat, eläkeläiset ja muut. Luvussa 7 tarkastellaan eri maahanmuuttajaryhmien kokonaisvaikutusta ikäryhmässä 7–70-vuotiaat. Jälkimmäisessä tarkastelussa ovat mukana myös toisen polven maahanmuuttajat, eli ne joilla on ainakin yksi ulkomailla syntynyt vanhempi.

Tutkimuksessa käytetyistä ikärajauksista varsinkin 7–70 vuotta on epätavallinen, ja ongelmallinen kahdesta syystä:

Tilastokeskuksen avoimista aineistoista ei ole mahdollisuutta tehdä poimintaa etnisen taustan mukaan eri pääasiallisen toiminnan ryhmiin (opiskelijat, työlliset jne.) kuuluvien määristä näillä ikärajauksilla, eivätkä ne ole muissakaan suomalaisissa tutkimusjulkaisuissa kovin yleisiä. Yleisemmin käytetyn ikärajauksen (vaikkapa 15–64-vuotiaat) soveltaminen tekisi tutkimuksen tuloksista paremmin vertailukelpoisia muihin tilastoihin ja tutkimustietoon.

Varsinainen silmänkääntötemppu piilee kuitenkin siinä, että ikähaitarin katkaiseminen asteikon yläpäästä kaunistelee suomalaistaustaisten nettovaikutusta ulkomaalaistaustaisiin verrattuna dramaattisesti.

Suomessa asuu yli 1,1 miljoonaa yli 62-vuotiasta suomea, ruotsia tai saamea äidinkielenään puhuvaa, kun taas vieraskielisistä vain n. 10 000 kuuluu tähän ikäryhmään. Yli 70-vuotiaiden osalta vastaavat luvut ovat 620 000 ja 4 000. Käytännöllisesti katsoen kaikki yli 70-vuotiaat ovat eläkeläisiä ja raportin lukujen mukaan juuri eläkeläisten nettovaikutus julkiseen talouteen on kaikkein voimakkaimmin negatiivinen.

Eräs painavimmista työperäisen maahanmuuton puolesta esitetyistä argumenteista on, että Suomen väestö vanhenee jatkuvasti ja eläkeläisten määrä suhteessa työikäisiin kasvaa huolestuttavasti. Jättämällä laskuista 620 000 eläkeläistä tämä näkökulma saadaan kätevästi ohitettua, mutta kovin älyllisesti rehellisenä tällaista lähestymistapaa ei voi pitää.

Uusi laskelma perustuu raportin omiin lukuihin

Raportin sivulta 82 löytyy taulukko, jossa on laskettu kymmeneen suurimpaan maahanmuuttajaryhmään (syntymävaltion perusteella) kuuluvien julkisen talouden nettovaikutukset henkeä kohden:

Opiskelijat Työlliset Työttömät Eläkeläiset Muut
Somalia –21 208 € –2 998 € –17 740 € –32 609 € –15 945 €
Irak –15 462 € –4 174 € –20 842 € –21 786 € –14 944 €
Ruotsi –14 905 € 3 954 € –20 032 € –31 933 € –14 228 €
Ent. Jugoslavia –13 630 € 765 € –17 874 € –22 560 € –11 698 €
Turkki –11 953 € 1 048 € –15 974 € –18 005 € –9 225 €
Thaimaa –10 913 € –2 326 € –16 332 € –30 125 € –8 712 €
Ent. Neuvostoliitto –12 089 € 2 191 € –17 615 € –23 700 € –8 443 €
Viro –12 630 € 2 309 € –18 041 € –28 223 € –6 612 €
Kiina –10 473 € 3 374 € –13 710 € –26 723 € –5 089 €
Saksa –11 817 € 8 516 € –15 095 € –20 904 € –4 708 €
Kaikki ulkomaat –13 465 € 2 742 € –17 594 € –26 692 € –8 734 €
Suomi –17 017 € 5 337 € –12 568 € –24 254 € –11 242 €

Yhdistin tämän taulukon henkilöä kohden lasketut luvut Tilastokeskuksen avoimiin tietoihin eri ryhmiin kuuluvien määristä siten, että kaikki 15 vuotta täyttäneet otetaan mukaan. Laajensin tarkastelun samalla kaikkiin ulkomaalaisryhmiin ja selvitin, miten suomalaiset kunnat sijoittuisivat suhteessa niihin. Kunnista kerrotaan myös kuntatyyppi tilastollisen kuntaluokituksen mukaan ja perussuomalaisten kannatus viime kunnallisvaaleissa (2012). Näin syntynyt interaktiivinen visualisointi löytyy alta. (Visualisointi ei välttämättä näy oikein kaikilla vanhemmilla selaimilla.)

Haluan vielä erikseen korostaa, että kaikki visualisoinnin tiedot perustuvat perussuomalaisten omassa maahanmuuttoselvityksessä esitettyihin lukuihin (taulukko yllä) ja Tilastokeskuksen avoimiin aineistoihin.


Grafiikassa on sinisellä värillä korostettu ne kunnat, joissa perussuomalaisten kannatus oli kunnallisvaaleissa vähintään 20 %. (Kynnysarvoa voi muuttaa vasemman alakulman säätimellä.) Kansallisuus- ja kieliryhmistä korostettuina näkyvät ne, joille on Suomen Perustan selvityksessä laskettu omat luvut. Muiden ryhmien nettovaikutus on laskettu ”kaikki ulkomaat” -rivin lukujen perusteella.

Kun tarkasteluun otetaan koko 15 vuotta täyttänyt väestö, havaitaan että vieraskielisten vaikutus julkiseen talouteen on perussuomalaisten käyttämällä laskentatavalla negatiivinen (−5 804 €  henkeä kohden), mutta kotimaisten kielten puhujien vaikutus on vielä tätäkin negatiivisempi (−7 039 €). Koko eläkeläisväestön ottaminen mukaan tarkasteluun mielivaltaisen 70 vuoden ylärajan soveltamisen sijaan kääntää siis selvityksen alkuperäisen tuloksen päälaelleen: maahanmuuttajien vaikutus julkiseen talouteen on positiivisempi kuin suomalaissyntyisten.

Täsmennys 6.4. klo 16:55: 70 vuoden ikäraja ei ole täysin mielivaltainen, vaan ilmeisesti juontuu käytetystä aineistosta (Tilastokeskuksen yhdistetty työntekijä-työnantaja-aineisto, FLEED), joka sisältää vain 15–70-vuotiaat. Kun aineiston perusteella on kuitenkin pystytty laskemaan nettovaikutus henkeä kohden myös eläkeläisille ja etenkin kun yli 70-vuotiaita maahanmuuttajia Suomessa on vain n. 4 000, olisi jonkinlainen estimaatti voitu ja pitänyt tehdä myös yli 70-vuotiaiden ryhmälle.

Manner-Suomen kunnista vain noin kymmenesosa on nettovaikutukseltaan asukasta kohden vieraskielisten keskiarvoa parempi. Niistä kunnista, joissa perussuomalaisten kannatus oli kunnallisvaaleissa vähintään 20 % ei yksikään yllä vieraskielisten ryhmien keskitasolle ja vain yhden (Kaustinen) nettovaikutus on suomenkielisten keskitasoa positiivisempi.

Onko oikein arvottaa kuntia näin suoraviivaisesti pelkän asukasta kohden lasketun taloudellisen hyödyn mukaan? Pitäisikö eläkeläiset ja perussuomalaisten kannattajat ajaa pois maasta talouslukuja rumentamasta? Ei pitäisi. Ihmisarvoa tai vaikkapa kansallismaiseman arvoa ei mitata rahassa, eikä rahallinen mittari aina huomioi kunnolla kaikkea välineellistäkään hyötyä. Hyvin yksinkertaisena esimerkkinä jälkimmäisestä mainittakoon eläkeläisten apu lastenlasten hoidossa – tällä on hyvin konkreettinen merkitys kansantalouden kannalta, mutta sen täsmällinen hinnoittelu on työlästä, eikä sitä siksi yleensä laskelmissa huomioida.

Myöskään pakolaisia ei Suomeen oteta siksi, että he hyödyttäisivät julkista taloutta, vaan koska on oikein auttaa hädänalaisia. Perhesiteiden kautta maahamme tulevat taas ovat ennen kaikkea jonkun läheisiä ja vasta toissijaisesti työvoimaa ja veronmaksajia. Toki on järkevää pyrkiä hyödyntämään maassa jo asuvien taloudellinen potentiaali, mutta sitä tuskin voimme muuttaa, että juuri maahan saapuneet pakolaiset ovat julkisen talouden näkökulmasta vastakin menoerä. Ja mitä sitten? Niin ovat sairaat ja vanhuksetkin. Ei se tarkoita, että nämä ihmisryhmät pitäisi jättää oman onnensa nojaan.

Selvityksessä käytetty laskentatapa tuottaa absurdeja tuloksia

Työperäisen maahanmuuton kohdalla kysymys taloudellisista vaikutuksista on relevantti, eikä se toki merkityksetön ole muidenkaan maahanmuuttajaryhmien osalta. Harmillisesti on kuitenkin todettava, että perussuomalaisten selvitys ei anna maahanmuuton kustannuksista tai hyödyistä kunnollista kuvaa, koska käytetty laskentatapa on selvästi virheellinen.

Lähes kaikki etniset ryhmät jäävät raportin lukujen mukaan nettovaikutukseltaan selvästi pakkasen puolelle kun myös yli 70-vuotiaat otetaan mukaan laskelmaan. Ainut ryhmä, joka pääsee rimaa hipoen plussalle on Saksan kansalaiset (+12 €). Selvityksen lukujen perusteella voidaan laskea, että 15 vuotta täyttäneiden kotimaisten kielten puhujien yhteenlaskettu nettovaikutus julkiseen talouteen on –30,4 miljardia ja vieraskielisten –1,2 miljardia.

Tämä tarkoittaa sitä, että kaikkien Suomessa asuvien 15 vuotta täyttäneiden yhteenlaskettu nettovaikutus julkiseen talouteen on –31,6 miljardia. Tulos on täysin absurdi ja kertoo, että laskentatapa on pahasti pielessä. Julkisen sektorin alijäämä vuonna 2011 oli todellisuudessa vain 2 miljardia euroa. Käytetty laskentatapa hukkaa siis johonkin melkein 30 miljardia laskelman plussapuolelle kuuluvia eriä (tai liioittelee menoja).

Tästä n. 7 miljardia koostunee laskelmasta tietoisesti pois jätettyjen verojen kuten yhteisö-, kiinteistö-, perintö- ja varainsiirtoverojen osuudesta, mutta ne huomioidenkin laskelmaan jää ammottava aukko. Koko väestön yhteenlasketun nettovaikutuksen pitäisi suunnilleen vastata julkisen talouden sektoritilinpidon loppusummaa (–2 miljardia). Kun otetaan huomioon, että 0–14-vuotiaat tuottavat julkiselle sektorille pääosin menoja, yhteenlasketun nettovaikutuksen pitäisi yli 15-vuotiaiden osalta olla luultavasti jopa jonkin verran plussan puolella. Jos tuloja tai menoja ei pystytä kohdistamaan väestöryhmittäin, ne pitäisi jakaa koko väestön kesken jossain soveliaassa suhteessa, kuten tutkimuksessa on tehty esimerkiksi välillisten verojen ja kollektiivisesti kulutettujen palveluiden (esim. maanpuolustuksen) kohdalla, eikä jättää kokonaan pois, kuten nyt on tehty.

Lisäys 7.4. klo 12:02: Vaikuttaa siltä, että selvityksessä ei ole huomioitu työnantajan eläke- ja sosiaaliturvamaksuja ainakaan 20–62-vuotiaiden henkilöä kohden lasketuissa summissa. Tämä selittäisi noin 17 miljardia tuosta 31,6 miljardin aukosta. Rajaus on todella erikoinen, koska jos maksetut eläkkeet on kuitenkin laskettu mukaan menopuolelle niin totta kai eläkemaksut kuuluvat tulopuolelle. Se, että ne maksaa nimellisesti työnantaja, ei poista sitä että eläkemaksut ovat normaalimääritelmän mukaan osa verokiilaa.

20–62-vuotiaiden maahanmuuttajien ryhmässä työllisiä on selvityksen lukujen mukaan n. 120 000. Raportista ei ilmene, millainen maahanmuuttajien keskimääräinen palkkataso on, mutta tässä nopea laskelma siitä, paljonko työnantajan eläke- ja sosiaaliturvamaksuja tämän suuruiselta ryhmältä kertyisi eri keskimääräisillä kuukausipalkoilla:

• 1 500 €/kk: n. 550 milj. €/v.
• 2 000 €/kk: n. 750 milj. €/v.
• 2 500 €/kk: n. 900 milj. €/v.
• 3 000 €/kk: n. 1,1 mrd €/v.

Väite maahanmuuton 700 miljoonan vuosikuluista julkiselle sektorille näyttää siis perustuvan siihen, että laskelmassa on jätetty osa julkisen sektorin tuloista (eläke- ja sosiaaliturvamaksut) huomioimatta.

Vaikuttaa lähestulkoon siltä, että selvitystä varten on ensin kehitetty laskentatapa, jolla saadaan maahanmuuton kokonaisvaikutus painettua varmasti miinukselle, ja kun on huomattu, että se painaa suomalaissyntyisten loppusumman vielä maahanmuuttajiakin pahemmin pakkaselle, on korjausliikkeenä leikattu vanhimmat ikäluokat tarkastelusta pois. Tuskinpa tutkimuksen laatija sentään aivan näin häikäilemättömän tarkoitushakuisesti on toiminut, mutta kyllä lukujen käsittely pönkittää perussuomalaisten maahanmuuttopoliittista agendaa voimakkaammin kuin mihin niiden objektiivinen tarkastelu mielestäni antaisi aihetta.

Metodologia ja lähteet

Lopuksi vielä muutama sana itse tekemistäni valinnoista ja käytetyistä aineistoista.

Aineistoni ovat perussuomalaisten kannatuslukuja lukuun ottamatta samalta vuodelta (2011) kuin alkuperäisen selvityksen luvut. Kunnallisvaalien 2012 tulos valikoitui aineistoksi vuoden 2011 eduskuntavaalien sijaan, koska kunnallisvaaleissa vaalitulos on helposti saatavissa kunnittain kun taas eduskuntavaaleissa kuntakohtaiset tulokset pitäisi työläästi koostaa äänestysaluekohtaisia tietoja yhdistellen.

Suomen Perustan selvityksessä maahanmuuttotausta on määritelty henkilön tai hänen vanhempiensa syntymämaan mukaan. Tätä tietoa ei Tilastokeskuksen avoimista aineistoista löydy, joten olen käyttänyt visualisoinnissa sen sijaan tietoa pääasiallisesta toiminnasta kansallisuuden ja kielen mukaan. Kansallisuus vastannee siedettävällä tarkkuudella ensimmäisen sukupolven maahanmuuttajan syntymämaata ainakin tuoreemmissa maahanmuuttajaryhmissä ja kieli vuorostaan kertoo likimääräisesti ensimmäisen ja toisen sukupolven maahanmuuttajien kokonaismäärän (sikäli kun kieli voidaan yhdistää yksittäiseen taustamaahan).

Niiden etnisten ryhmien osalta, joille raportissa on laskettu omat luvut (taulukko s. 82), olen käyttänyt näitä lukuja. Muiden osalta laskelman pohjana ovat olleet ”kaikki ulkomaat” -ryhmän luvut. Kielten osalta olen hyödyntänyt tietoa Suomessa asuvien eri kielten puhujien alkuperämaista; esimerkiksi suurin osa Suomen albaniankielisistä on kotoisin entisestä Jugoslaviasta vaikka kieltä puhutaan myös Albaniassa, joten tämän kieliryhmän laskelmassa on käytetty entisen Jugoslavian lukuja. Sen sijaan esimerkiksi arabian puhujat ovat kotoisin useista eri taustamaista, joten tämän ryhmän osalta laskelma perustuu ”kaikki ulkomaat” -ryhmän lukuihin. Tästä säännöstä hieman poiketen ruotsinkielisille on käytetty Suomessa syntyneiden lukuja ja saksankielisille Saksassa syntyneiden. Ruotsin kansalaisille sen sijaan on käytetty Ruotsissa syntyneiden lukuja.

Lähteenä on käytetty Maahanmuutot ja Suomen julkinen talous -raportin lisäksi seuraavia Tilastokeskuksen avoimesta StatFin-tilastotietokannasta löytyviä aineistoja:

Koostetiedosto csv-muodossa löytyy täältä.

Kirjoitin myös jatkoartikkelin aiheesta.

Cartograms are hard

This cartogram, purporting to show the indebtedness of Eurozone countries, has been making the rounds on the internet. To me it mostly shows that making cartograms that can actually give the reader any relevent insights is hard, and should be left to specialists.

A cartogram is a map in which the size of the countries (or municipalities, states etc.) do not correspond to their geographical dimensions but instead are scaled according to a different variable, e.g. population. (Stricly speaking, a cartogram is not a map, but in layman’s terms it is.) Truly great cartograms exist, but in my experience, 99 per cent of the time cartograms muddle the data and don’t help gain insights.

This particular cartogram comes from a Deutsche Bank research report (p. 51). The report gives no source, nor any numbers in tabular form, nor even an explanation what the data being shown is. (“Sovereign debt” might mean a variety of things.) The different colors don’t seem to signify anything.

The worst feature of the map is that only Eurozone countries have been rescaled according to debt, whereas non-Eurozone countries (nearly half of the countries shown) retain their original size (but not shape, except for UK). Unless the reader knows all the 19 Eurozone countries by heart (and recognizes their distorted, unlabeled shapes on the map), she can only guess which countries’ sizes show relevant information and which do not.

Making the assumption that the data shown in the original cartogram is public sector liabilities minus assets, per capita (excluding social security funds for better comparability across countries) I downloaded the latest (Q1/2014) available data from Eurostat and created this simple horizontal bar chart.

Edit 23.3.: It would seem that this assumption is wrong. The data shown on the cartogram can’t be liabilities minus assets, whether or not social security funds are excluded, since the Eurostat numbers for those don’t match the relative sizes of the countries on the map. (For example, Belgium should make the top 2 in both cases, but is not in the top 10 of largest countries on the map.) Either the numbers are based on a different definition of sovereign debt, or are plain wrong. I’m guessing the latter, since I can’t imagine a definition of debt which would place Belgium very far from the top among European countries.

(I also collected the data into a single csv file for anyone wishing to create their own visualizations or analyses using the same data.)

Compare the bar chart and cartogram and decide for yourself which gives you more insights about the underlying data. I think the answer is pretty obvious.

Tieto näkyväksi -seminaari 18.9., puhujina mm. Robert Simmon ja Stefanie Posavec

Tiedon kuvallista esittämistä yleistajuisesti käsittelevä Tieto näkyväksi -seminaari järjestetään tänä syksynä kolmatta kertaa. Tapahtuma-ajankohta on torstai 18.9. Edelliset kaksi seminaaria (2012, 2013) olivat molemmat menestyksiä, keräten kumpikin n. 600 osallistujaa.

Tämän syksyn puhujiksi on kiinnitetty NASAn Earth Observatoryssa työskentelevä Robert Simmon, freelance-suunnittelija Stefanie Posavec sekä The Economist -lehden Graham Douglas. Lisää puhujia ja tarkempia tietoja tapahtumasta julkistetaan elokuussa.

Liput tapahtumaan ovat myynnissä nyt ja early bird -hinnat (–25 %) ovat voimassa heinäkuun loppuun. Opiskelijoille tapahtuma on ilmainen, mutta vaatii ilmoittautumisen lipunmyyntijärjestelmän kautta.

Lisätietoja tapahtuman nettisivuilta ja Facebook-sivulta. Tervetuloa!

Are carbohydrates really the culprit behind the obesity epidemic?

Obesity is a global health problem. It is obiviously linked to diet in some way, but the exact nature of this link is the subject of volumes of research, and also of heated exchanges online. One school of thought, occasionally exhibiting quasi-religious tendencies in some of its advocates, claims that the obesity epidemic is mainly caused by our diet being too rich in carbohydrates from cereals and other such sources, as well as vegetable oils. As a solution, they advocate changing to a diet rich in animal fats, meat, eggs and so on.

Inspired by the coverage of a recent piece in The Lancet about rising obesity rates, as well as a somewhat uncritical book review in The Economist I decided to see myself if the publicly available data on obesity and diets could be tortured into confessing something on the issue.

I need to emphasize that this is not a scientific study. Describing the methods used as rigorous would be a stretch, to say the least. A few potential problems with the data and with my handling of it are outlined in the end of this article, and the list is by no means exhaustive. What this is, is a bit of light-weight data journalism that will hopefully inspire discussion and possibly more serious research into the data.

I used this WHO data on obesity (the same used by the Lancet authors), combined with agricultural statistics from FAO to see if the number of overweight and obese people in a country was correlated with the intake of various foods.

To capture the effect of changing diets, I used the data from several different years within a single country as separate data points where historical data was available. If you disagree with this choice, you can switch the view to show only the most recent data.

The end result is below, an interactive scatterplot that shows how the consumption of various foods correlates with the number of overweight and obese people in each country. The idea of the visual presentation is that the reader can look at the full dataset and not need to rely on single numbers such as averages or correlation coefficients.

In light of these numbers, there is no evidence that high cereal consumption is linked with obesity on a country level. If anything, the correlation between the share of overweight adults and cereal consumption is mildly negative (r = –0.18). With starchy roots (such as potato) there is no correlation whatsoever (r = 0.08).

The correlation between vegetable oils and overweight is moderate (r = 0.33), though not much greater than with the consumption of animal fats (r = 0.23). It should be noted, though, that the consumption of animal fats is very small in most non-Western countries, so not very many conclusions can necessarily be drawn from this comparison.

The strongest correlation in the data with the share of overweight adults is with meat consumption (r = 0.5). Not surprisingly, the correlation with sugar and sweeteners is also reasonably strong (r = 0.43).

The correlation with meat consumption and obesity is probably at least partially due to the fact that higher meat consumption is typical of higher living standards overall, which also often means a higher total calorie intake and less physical work. The existence of these types of confounding variables is amply demonstrated by the fact that the correlation of overweight with the consumption of fruits is also moderate (r = 0.32). Practically no one believes eating fruits makes you fat, so the explanation is probably that fruit intake is also simply correlated with higher living standards.

So what’s the take-home messge? I would interpret the data so that no single group of foods is responsible for the obesity epidemic by itself, certainly not cereals. This sort of population-level comparison using somewhat patchy data can hardly settle the matter by itself, but I would still argue that if cereals (and carbohydrates in general) were really so bad, there should be a sliver of the effect visible in the data even on this coarse level. Which there isn’t, as you can see.

The jury is still out on vegetable oils, but if we want to explain away the high correlation of meat consumption with the share of overweight adults, I would argue similar confounding factors are to be found here; the use of vegetable oils in the West has risen with the overall rise of living standards. So if you want to argue that the correlation of obesity with meat intake is spurious, the same should probably said of the clearly weaker correlation with vegetable oils – and vice versa.

The next step would be to compare the calorie intake from different kinds of foods instead of the absolute numbers (kg/capita/year), which could possibly help to overcome the fact that a rise in living standards affects both the total calorie intake and the mix of different types of foods consumed.

Potential sources of error

Apart the whole project being executed within the span of two working days, and by a designer with no scientific training to speak of, there are some specific details in the data and how it was processed that can be sources of error.

FAO’s data shows the “food supply”, that is, the food theoretically available for human consumption, not the actual food intake. Factors such as wastage are not taken into account, and may vary from country to country.

WHO’s data on obesity is collected using methods and samples differing from country to country and may thus not be directly comparable. There were some examples in the data where a change in the numbers was clearly an artifact of the data collection process, not representative of the change in the facts on the ground; for example the share of overweight people dropping from 59.8 to 46.2 percent in a single year in Australia 2000–2001. In such cases the most recent data was assumed to be reliable, and the older data was discarded.

The selection of countries for which the data is available is much better representative of high-income Western countries than world’s other regions, which is bound to effect the overall picture.

Because the number of years for which historical data was available varied greatly between different countries, not all years for which data was available were used. A more balanced subset was instead attempted by picking only some years, far apart enough to exhibit clear changes in dietary patterns. The method used is extremely arbitrary, and probably effects the end result.

The final dataset used for the visualization was created with a custom Python script from messy original data by a non-programmer, a process which is a highly probable source of error. The final data was superficially examined for flaws (and the script corrected several times accordingly), but it has not been rigorously and thoroughly scrutinized in the way required for e.g. scientific publication and thus scripting errors remain a potential source of errors in the data. For those interested in assessing the data quality themselves, the processed data can be downloaded as a tsv file (which is similar to csv, except using tabs instead commas as separators) here.

Eurovaalien kovin kilpailu käytiin vihreiden ja demarien välillä

Eurovaalituloksen ensimmäisissä analyyseissä on noussut vahvasti esiin arvio, että viime eurovaaleihin nähden huonosti menestyneet vihreät menettivät ääniä ennen kaikkea hallitusvastuusta keväällä luopuneelle vasemmistoliitolle. Koko maan lukuja katsoessa tämä on houkutteleva tulkinta, olihan vasemmiston vaalivoitto suunnilleen vihreiden tappion suuruinen.

Ilmeisin selitys ei kuitenkaan välttämättä pidä paikkaansa tarkemman analyysin valossa. Jos vihreät olisivat menettäneet äänestäjiään ennen kaikkea vasemmistoliitolle, tämän pitäisi näkyä äänestysaluekohtaisessa tarkastelussa niin, että vihreiden tappio olisi suurin niillä alueilla joissa vasemmisto on onnistunut houkuttelemaan eniten äänestäjiä. Näin ei kuitenkaan näyttäisi olevan.

Tein vertailun sunnuntain eurovaalien ja vuoden 2012 kunnallisvaalien tuloksesta äänestysalueittain. (Vertailu edellisiin eurovaaleihin ei onnistu yhtä helposti, koska ainakaan vielä tätä kirjoittaessa oikeusministeriö ei ole julkaissut vuoden 2009 äänestysaluekohtaisia tuloksia yhtä kätevässä kootussa koneluettavassa muodossa kuin vuoden 2012 kuntavaaleista ja 2014 eurovaaleista on saatavilla. Tieto on sinänsä saatavilla ja ajan salliessa koitan myöhemmin ottaa sen mukaan analyysiin.) Satunnaisvaihtelun karsimiseksi otin mukaan vain sellaiset äänestysalueet, joilla molemmissa vaaleissa oli annettu yhteensä vähintään tuhat ääntä.

Käytin korrelaation mittarina helposti laskettavaa Pearsonin korrelaatiokerrointa, joka ei välttämättä ole paras mahdollinen tilastollinen analyysimenetelmä, mutta olen sen oheen tehnyt myös interaktiivisen grafiikan, jonka avulla lukija voi itse arvioida, kertovatko pelkät numerot koko totuuden vaalituloksesta.

Grafiikassa voi valita vaaka- ja pystyakselille yhden kahdeksasta isoimmasta eduskuntapuolueesta, muiden puolueiden yhteisen äänisaaliin tai yleisen äänestysaktiivisuuden. Akselien arvot ovat siis muutoksia puolueen kyseisen äänestysalueen äänistä saamassa prosenttiosuudessa vuoden 2012 kuntavaalien ja viime sunnuntain eurovaalien välillä. Renkaiden värit viittaavat vaalipiiriin. Tarkemmat tiedot äänestysalueesta saa viemällä hiiren sitä kuvaavan renkaan päälle.

Jos vaaka- ja pystyakselille valittujen puolueiden vaalituloksen välillä on vahva yhteys niin, että toinen on selvästi vienyt ääniä toiselta, äänestysalueita kuvaavien renkaiden muodostaman pistepilven pitäisi muodostua kuvion lävistäjän ympärille. Vaaka- tai pystysuuntainen pilvi viittaa siihen, ettei yhteyttä puolueiden vaalimenestyksen välillä ole. (Tällaista kuviotyyppiä kutsutaan parvikuvioksi.)

Vihreiden ja vasemmistoliiton vaalimenestystä kuvaava kuvio on voimakkaasti pystysuuntainen, joka tarkoittaa, että vihreiden ääniosuus on vaihdellut paljon edellisistä vaaleista äänestysalueesta riippuen, kun taas vasemmistoliitto on parantanut ääniosuuttaan keskimäärin melko tasaisesti eri puolilla maata. Vahvaa yhteyttä ääniosuuden muutoksien välillä ei näy, korrelaatiokerroin saa arvon r = –0,15 jota ei voi pitää kovin suurena.

Sen sijaan vihreiden ja SDP:n vaalimenestyksen välillä näkyy huomattavasti vahvempi yhteys, r = –0,48. Vihreiden menestys korreloi melko voimakkaasti myös äänestysaktiivisuuden muutoksen kanssa: r = –0,41. Nopea tulkinta on, että SDP on menettänyt äänestäjiään vihreille, mutta vihreät toisesta päästä nukkuvien puolueelle. (Korjaus: Ensimmäisessä versiossa tähän oli lipsahtanut ajatusvirhe. Jos vihreät olisi menettänyt ääniä ennen kaikkea äänestysaktiivisuuden laskun kautta, korrelaatiokertoimen pitäisi olla positiivinen. Nyt tilanne on päin vastoin niin, että vihreät ovat erityisesti menestyneet niillä äänestysalueilla joilla äänestysaktiivisuus laski paljon kuntavaaleihin verrattuna.) Muitakin potentiaalisia selityksiä luvuille varmasti löytyy, mutta selkeästi yhteys vihreiden ja demarien äänimenestyksen välillä on paljon vahvempi kuin vihreiden ja vasemmiston välillä.

Muiden puolueiden vaalituloksen väliltä ei löydy yhtä vahvoja yhteyksiä. Vahvimmat yksittäiset taisteluparit ovat RKP & kokoomus (r = –0,29) ja perussuomalaiset & kokoomus (r = –0,30). Mielenkiintoinen yllätys on myös vasemmistoliiton ja keskustan pieni kilvoittelu (r = –0,23). Vasemmiston tuore meppi Merja Kyllönen menestyi erinomaisesti juuri Pohjois-Suomessa ja kilpaili äänistä varmasti paljon esimerkiksi Paavo Väyrysen kanssa.

Grafiikassa on vielä pieniä teknisiä virheitä, mutta sen muodostama yleiskuva lienee oikea. Eri asia on kuinka pitkälle meneviä johtopäätöksiä lukujen perusteella voi vielä tehdä. Kuntavaalit ja eurovaalit ovat luonteeltaan erilaisia ja äänestäjät saattavat valita puolueensa näissä vaaleissa kovinkin eri perustein. Toimikoon tämä kuitenkin pienenä datajournalistisena keskustelunavauksena vaalituloksen syvempään analyysiin. Lukijoilla on myös epäilemättä paljon kommentteja valittuihin analyysimenetelmiin ja grafiikan toteutukseen, jotka koitan sitten parhaani mukaan huomioida sitten seuraavassa versiossa. :)

Lisäys 28.4.: Työkaluun on nyt lisätty mahdollisuus tarkastella aiemman ääniosuuden absoluuttisen muutoksen (%-yksikköä) myös äänimäärän absoluuttista muutosta (kpl) sekä ääniosuuden suhteellista muutosta (% suhteessa kuntavaaleihin). Absoluuttisten äänimäärien tarkastelu tarjoaa heikompia korrelaatioita kuin aiempi ääniosuuden muutos, mutta edelleen vihreiden vahvin korrelaatio säilyy nimenomaan demareihin ja vihreät on myös ainut puolue jonka kanssa SDP:n tuloksella on selvästi nollasta poikkeava negatiivinen korrelatio, vaikka kerroin onkin pieni (r = –0,26). Vihreiden ja vasemmistoliiton valtakunnallinen korrelaatio on edelleen heikko. Vihreiden vahvimmilla alueilla Helsingissä ja Uudellamaalla vasemmisto näyttäisi ehkä jonkin verran rokottaneen vihreiden tulosta, mutta vihreiden tappio absoluuttisissa äänissä mitattuna on suurempi kuin vasemmiston voitto.

(Huomautettakoon että absoluuttisen äänimäärien vertaaminen äänestysaktiivisuuteen – joka tässä on annettujen äänten määrän prosentuaalinen lasku kuntavaaleista, ei muutos prosenttiyksikköinä – ei anna järkeviä tuloksia, koska äänestysaktiivisuuden ja isojen puolueiden absoluuttisen äänimäärän korrelaatio on suuri ja pienten puolueiden pieni johtuen ihan siitä miten korrelaatio lasketaan.) Itse asiassa näin ei ole, vaan absoluuttisten äänimäärien vertailu äänestysaktiivisuuteen paljastaa että vihreät ja RKP kärsivät vähiten laskeneesta äänestysaktiivisuudesta, kun taas muiden puolueiden tulos korreloi positiivisesti äänestysaktiivisuuden muutoksen kanssa.

Slate’s language map and messy census data

Slate.com published a fun article and set of maps about the languages spoken in the U.S., other than English and Spanish.

One of the maps struck me as somewhat surprising:

CBOX_BlattLanguage_2.jpg.CROP.original-original

 

Is New York really the only state where Chinese is the most spoken language after English and Spanish? And why no African languages made it to the map?

Being the nerd I am, I looked up the original data from the American Community Survey (the data source referred to in the original article) using Census Bureau’s American FactFinder. And it would indeed seem that the data on the map is (partially) wrong – or at least it doesn’t match the data I could find.

The table below has the correct most-spoken non-English, non-Spanish language (or group of languages) for each state, with the ones that were wrong in the original map highlighted:

Alabama German
Alaska Other Native North American languages
Arizona Navajo
Arkansas German
California Chinese
Colorado German
Connecticut Polish
Delaware Chinese
Florida French Creole
Georgia Korean
Hawaii Other Pacific Island languages
Idaho German
Illinois Polish
Indiana German
Iowa German
Kansas German
Kentucky German
Louisiana French (incl. Patois, Cajun)
Maine French (incl. Patois, Cajun)
Maryland African languages
Massachusetts Portuguese or Portuguese Creole
Michigan Arabic
Minnesota African languages
Mississippi Vietnamese
Missouri German
Montana Other Native North American languages
Nebraska Vietnamese
Nevada Tagalog
New Hampshire  French (incl. Patois, Cajun)
New Jersey Chinese
New Mexico Navajo
New York Chinese
North Carolina Chinese
North Dakota  German
Ohio German
Oklahoma Vietnamese
Oregon Chinese
Pennsylvania Chinese
Rhode Island Portuguese or Portuguese Creole
South Carolina German
South Dakota Other Native North American languages
Tennessee German
Texas Vietnamese
Utah Other Pacific Island languages
Vermont French (incl. Patois, Cajun)
Virginia Korean
Washington Chinese
West Virginia German/French (exact same number of speakers)
Wisconsin Hmong
Wyoming German

What could explain the errors? For starters, I’m probably using at least a slightly different data set from the original author, as I couldn’t find a data that had the “Other” categories broken down in the same level of detail as in the Slate article. (I’m using a data set “LANGUAGE SPOKEN AT HOME BY ABILITY TO SPEAK ENGLISH FOR THE POPULATION 5 YEARS AND OVER, 2008-2012 American Community Survey 5-Year Estimates”, which should be the most reliable current data available on the FactFinder web site.) So if the original article is using older but more detailed data, e.g. from 2005–07, that could explain at least some of the difference.

Another plausible scenario is that Slate uses the wrong data column in the same/similar data set. The data I used includes three values for each language: the total number of speakers, those who “speak English ‘very well’”, and those who “speak English less than ‘very well’”. With a quick glance at the data it seems to me that the original map actually shows the language with the biggest number of those “very well” speaking people, not the total speakers, but I didn’t test this hypothesis thoroughly.

Whatever the problem here, I can’t really blame the original author. The Census Bureau’s several websites are awfully difficult to use, the categorizations used are confusing and the data formats are a mess. It was hard work to simply get the data for all the states and clean it up into a usable format. (Now that I’ve done the job once, you can download the data here in a more user-friendly format if you want to play with it.)

This seems to unfortunately typical of a lot of open government data all around the world. A few magnificent exceptions aside, too much of the world’s open data is in an obscure or messy data format, hidden behind a crappy interface, accessible only to the most dedicated of hacks and wonks. As happy as I am for Gapminder, Google Public Data, and the like, I would rather see governments themselves clean up their act and start thinking seriously about how Joe Public can actually access their data. It isn’t enough that the data exists somewhere in some format. It needs to be accessible for regular people.

Suomen karttakuvan kehitys

Helsingin Sanomat on julkaissut hauskan artikkelin Suomen ilmaantumisesta maailmankartalle (ilmaisun kirjaimellisessa merkityksessä). Itse karttakuvat saisivat kyllä olla vielä isompia!

Olen itse työstänyt samasta aiheesta tekstiä ensi vuoden alussa julkaistavaan Informaatiomuotoilu-kirjaamme, mutta näillä näkymin sitä ei tulla ainakaan tässä laajuudessa käyttämään, joten ajattelin että tämä voisi olla hyvä tilaisuus julkaista teksti täällä blogissa.

Hesarin artikkelissa mainituista karttaprojektioiden eroista minulla on valmiina myös varsin kattava teksti, mutta sitä saatte odottaa kirjan julkaisuun asti. :)

* * *

Pohjoismaita kuvaava Tabula Rogerianan osa (saksalainen faksimiili 1800-luvulta). Pohjoinen on kartassa alhaalla.
Pohjoismaita kuvaava Tabula Rogerianan osa (saksalainen faksimiili 1800-luvulta). Pohjoinen on kartassa alhaalla.

Suomi hiipi maailmankartalle vähitellen. Ylipäänsä Pohjois-Euroopan karttakuvan kehitys on ollut hyvin hidas prosessi. Karttoja tehtiin läntisessä kulttuuripiirissä lähinnä Välimeren maissa ja tehdyt kartat kuvasivat pääasiassa Euroopan eteläisempiä osia. Helsingin yliopiston pohjoismaiden historian dosentti Mikko Huhtamies on todennut, että vielä Kalmarin unionin aikaan (1397–1523) hallitsijoilla ei ollut minkäänlaista käsitystä siitä, miltä heidän valtakuntansa olisi kartalla näyttänyt. Suomen ja Venäjän välinen rajakin oli vuosisatojen ajan vain luettelo rajamerkeistä erämaassa.

Jos edes Skandinavia kartalle mahtui – yleensä lisälehtenä, tabula nova, eteläisempiä alueita kuvaavaan varsinaiseen karttaan – se kuvattiin yleensä saarena. Joissain kartoissa niemimaa yhdistyy mantereeseen kapean maakaistaleen välityksellä, mutta tätä ei voine vielä pitää varsinaisesti Suomen kuvauksena. Suomalaisia paikannimiä ei näissä varhaisimmissa kartoissa vielä esiinny.

Tabula Rogeriana (1154) nimeää kaksi suomalaista paikannimeä: ”Abu(r)a” (Turku*) ja ”Tabast” (Häme). Tanskalaisen Claudius Clavuksen 1427 laatima kuuluisa Pohjoismaiden kartta on kadonnut, mutta siitä on säilynyt myöhempiä painettuja versioita, joista vanhin on vuodelta 1482. Tässä vielä varsin epätarkassa kartassa esiintyy paikannimi ”Findlandi”, jonka on tulkittu tarkoittavan Varsinais-Suomea. Fra Mauron maailmankartassa mainitaan ”Fillandia”-nimisen maan lisäksi ainakin ”Vibògo” (Viipuri) ja ”Abo” (Turku).

 Jacob Zieglerin kartassa vuodelta 1532 Suomen maantieteellinen sijainti osana Pohjoismaita alkaa hahmottua jo oikein, vaikka rantaviivan muoto onkin vielä aika kaukana todellisuudesta. Suomalaisia paikannimiä mainitaan jo useita, mm. ”Chimene” (Kemi), ”Strobothnia” (Pohjanmaa), ”Peunthe” (Päijänne), ”Hango” (Hanko), ”Custa” (Kustavi) ja ”Rasburghum” (Raasepori).

Varsinainen läpimurtoteos on kuitenkin ruotsalaissyntyisen Olaus Magnuksen Roomassa 1539 julkaisema Carta marina, joka kuvaa koko Pohjoismaat, mukaan lukien Suomen, merkittävästi tarkemmin ja yksityiskohtaisemmin kuin kukaan ennen tätä. Suomalaisia paikannimiä mainitaan toistasataa, tosin maan sisäosat on kuvattu vielä puutteellisesti. Maantieteellisen tiedon lisäksi kartassa on kuvattu mm. kansojen elintapoja, sodankäyntimenetelmiä ja historiallisia tapahtumia, kuten Viipurin pamaus.

Myös Orteliuksen (1570), Waghenaerin (1588) ja Mercatorin (1595) kartastoissa Suomi kuvataan jo melko kattavasti, mutta vasta Ruotsin maanmittauslaitoksen perustajan Anders Buren tarkkoihin mittauksiin ja laajaan tietojenkeruuseen perustunut Orbis arctoi nova et accurata delineatio vuodelta 1626 antoi Suomen maantieteestä ratkaisevasti Carta Marinaa paremman kokonaiskuvan. Buren kartta pysyikin toistasataa vuotta perusteoksena, johon muut Pohjolan karttoja laatineet kartografit työnsä pohjasivat.

Suomen aluetta kuvaavat kartat laadittiin pitkään Tukholmasta tai vieläkin kauempaa käsin. Aidosti kotimaisen kartografian varhaisvaiheita edustavat 1640-luvulta alkaen kylittäin laaditut maakirjakartat. Niistä kehittivät vähitellen pitäjänkartat, jotka muodostivat 1940-luvulle asti suomalaisen kartta-aineiston rungon ja joita varten tehdylle pohjatyölle muut kartat lähes aina rakentuivat.

Merkittävä piristysruiske suomalaiselle maanmittaustoiminnalle oli Ranskan tiedeakatemian retkikunnan 1736–37 Tornionjokilaaksossa tekemä, Newtonin fysiikan teorioiden testaamiseen liittynyt laaja mittaushanke, joka toi maahan uusia menetelmiä ja välineitä.

1740-luvulla perustettiin isojaoksi kutsutun maatalousmaan uudelleenjaon toteuttamista varten maanmittauskomissio. Sen merkittävimmistä hankkeista mainittakoon Eric af Wetterstedtin johdolla laadittu ja vuorineuvos S. G. Hermelinin kustantama kattava Suomen kartasto (1799) joka oli yleisesti käytössä 1800-luvun puoliväliin saakka.

Venäjän vallan aika toi pitäjänkarttojen rinnalle uuden sotilaskäyttöön tarkoitetun karttatyypin jota kutsuttiin topografikartoiksi. Nämä kaksi karttatyyppiä yhdistettiin 1947 alkaen peruskartoiksi, jotka edelleen ovat kattavin Suomea kuvaava kartta-aineisto. Peruskarttojen lisäksi Maanmittauslaitos tuottaa mm. maastokarttoja.

Kuntien tuottamat kantakartat ovat vielä maasto- ja peruskarttojakin tarkempia karttoja, joita käytettään mm. kaavoituksen ja rakennustöiden suunnittelun pohjana.

Maanmittauslaitos julkaisi toukokuussa 2012 suurimman osan sähköisistä kartta-aineistoistaan vapaasti ladattavaksi ja käytettäväksi.

*) Turun kaupunki tosin perustettiin nykykäsityksen mukaan vasta 1249, joten voi olla että tällä on tarkoitettu jotain muuta paikkaa. Jonkinlainen markkinapaikka nykyisen Turun seudulla on toki hyvinkin voinut olla jo 1100-luvun puolivälin tienoilla kun tiedot karttaa varten on kerätty. Joka tapauksessa Al-Idrisin kartta oli alkujaan arabiankielinen ja Pohjolan eksoottiset paikannimet ovat voineet vääristyä niitä latinalaiseen kirjaimistoon muutettaessa. Karttoja on myös täydennetty uudelleenpiirtämisten yhteydessä, joten kyseessä voi olla myös myöhempi lisäys jota ei alkuperäisessä kartassa ole ollut.