Matt Stiles julkaisi The Daily Viz -blogiissan joitain päiviä sitten visualisoinnin joka kuvaa eri syntymäpäivien yleisyyttä Yhdysvalloissa. Ongelmallista Stilesin toteutuksessa oli, että se perustui dataan joka ei sisältänyt varsinaisia syntyvyyslukuja, vaan ainoastaan eri päivämäärien yleisyysjärjestyksen. Tästä syystä Stiles teki vielä uuden version joka perustuu absoluuttisiin lukuihin. Uudesta kuviosta käy ilmi, että kuukausittainen vaihtelu syntyvyydessä on lopulta varsin pieni.
Juttu herätti kysymyksen siitä, miltä syntyvyyden kuukausittainen vaihtelu mahtaisi näyttää Suomessa. Parahiksi Tilastokeskuksella on syntyvyydestä tarjolla varsin tarkkaa dataa. Syntymäkuukautta kiinnostavampaa on ehkäpä se, milloin lapset saavat alkuunsa. Yhdeksän kuukauden siirto lukuihin onnistuu toki päässälaskunakin, mutta hieman hankalasti. Siksi päätin sopivasti näin alkukesän tienoilla tehdä kuvion, joka esittää syntyvyyden kuukausittain ja jossa tämä muutos on tehty valmiiksi. Kuviosta voidaan lukea joko syntymäkuukausi (himmeällä suluissa), tai sen alla voimakkaammalla tekstityypillä ladottu oletettu hedelmöityskuukausi.
Koska alkuperäinen data kertoo vain syntyvyydestä, kuvio on lähinnä suuntaa antava, koska se ei huomioi keskimääräistä lyhyempiä tai pidempiä raskauksia. Kuvioon merkityt eri vuodet viittaavat samasta syystä syntymävuoteen, eivät siihen vuoteen jolloin lapsi on saanut alkunsa. Aiheen syklisyydestä johtuen kuviotyypiksi soveltui poikkeuksellisesti tutkakuvio. Kuvion katkaistu asteikko ylikorostaa vaihtelua tarkoituksellisesti.
Kuviosta voidaan havaita, että ajatus juhannuslapsista ei ole täysin tuulesta temmattu: kesäkuussa alkunsa saaneita lapsia on vertailun joka vuonna selvästi enemmän kuin toukokuussa. Muutoin suvunjatkaminen vaikuttaisi painottuvan pikemminkin syksyn ja talven puolelle. Esimerkiksi vuoden 2011 elokuussa, jolloin oli eniten syntyneitä, maailmaan tuli peräti 853 uutta suomalaista enemmän kuin saman vuoden joulukuussa. Vuoden 2011 lapsista oli siis laitettu alulle peräti 18% enemmän marras- kuin maaliskuussa.
Entäpä miltä kuvio näyttäisi, jos vaihtelua ei korosteta asteikkoa katkaisemalla? Tein Stilesin esimerkkiä seuraen tällaisen kuvion, johon on laskettu kuukausien päiväkohtaiset keskiarvot:
Kuukausittainen vaihtelu näyttäisi tämän perusteella olevan Suomessa aavistuksen suurempi kuin Yhdysvalloissa. Huippukuukausi on sama (syyskuussa syntyneet eli joulukuussa alkunsa saaneet), mutta joulukuun alhainen syntyvyysluku poikkeaa amerikkalaisesta datasta. Mitäköhän Suomessa ja USA:ssa siis tapahtuu maaliskuussa?
______________________________
Päivitys 23.5.2012
Kommenteissa esitettyjen hyvien huomioiden perusteella päätin tehdä pienen päivityksen. Ensimmäisessä tutkakuviossa oli tosiaan suoraan käytetty absoluuttisia syntyvyyslukuja, joten kuukausien eri pituuksia ei ollut kompensoitu. Pylväskuviossa tämä oli huomioitu, se näyttää syntyneet per kuukausi jaettuna kuukauden pituudella. Alla oleva uusi kuvio näyttää nyt samalla tavalla syntyneet per kuukausi, unohtamatta vuoden 2008 karkauspäivää. Voidaan huomata että helmikuun syntyneiden kohdalla aiemmassa grafiikassa ollut notkahdus on hävinnyt, mutta muutoin yleiskuva on varsin samannäköinen.
Epätarkkuutta lisää tietysti se seikka, että hedelmöityskuukausi voi olla erimittainen kuin syntymäkuukausi. Vaihtelu kuukausien pituudessa on kuitenkin pientä verrattuna raskauksien tavalliseen pituusvaihteluun: raskauden keston arviointi heittää parhaimmassakin tapauksessa 8-9 päivää ja vähemmän kuin viisi prosenttia lapsista syntyy tarkalleen 40 viikon raskauden jälkeen. 80% syntymistä tapahtuu kahden viikon sisällä 40 viikosta. Näin kuvio on hyvin karkeasti suuntaa antava siittämiskuukauden kohdalla. Tarkan tieton saamiseksi siitä milloin suomalaiset lapset on pantu alulle vaatisi siis enemmin kyselytutkimusta. Liekö sellaista tehty?
Aiempien vuosien ja pitkän ajan muutosten visualisointi on ehdottomasti mielessä ja siihen tulen varmasti vielä palaamaan vastaisuudessa, data kun ulottuu aina vuoteen 1900 asti.