Kotimaisten kielten keskus

Kirjoitetun suomen kielen sanojen taajuuksia

Tämä sivu sisältää kirjoitetun suomen kielen sanojen taajuuslistan.Taajuuslistaan sisältyvät Parole-tekstikorpuksessa esiintyvät sananmuodot taajuustietoineen. Parole-korpus on yhteiseurooppalaisessa Parole-hankkeessa vuosina 1996-1998 koostettu nykysuomen tekstikorpus. Se sijaitsee CSC:n palvelimella osana Kielipankin tekstikokoelmia.

Teksti on käsitelty ennen sananmuotojen laskemista siten, että isot kirjaimet on muutettu pieniksi, välilyönneillä erotetut numerosarjat on yhdistetty '_'-merkeillä, välimerkit on poistettu (poikkeuksena ':' ja '-', jotka on säilytetty sanojen sisällä) ja tekstistä on poistettu kaikki ne merkkijonot, jotka eivät sisällä yhtäkään numeroa tai kirjainta. Rivin lopussa jaettuja sanoja ei ole yhdistetty. Laskettuja saneita on 17 604 995 kappaletta. Listat on järjestetty siten, että yleisin sananmuoto on listassa ensimmäisenä.

Sivun alalaidasta ladattavissa pakatuissa taajuuslistoissa jokaiseen sananmuotoon liittyy sen esiintymien lukumäärä aineistossa ja sananmuodon esiintymien suhteellinen osuus prosentteina aineiston kaikista saneista. Sananmuodon esiintymien suhteellinen osuus aineiston saneista saattaa olla niin pieni, että sen suuruusluokka esitetään negatiivisella eksponentilla (esimerkiksi e-06). Luvut on leikattu poikki neljännen desimaalin jälkeen, ei pyöristetty. Muun muassa alla olevat sanat esiintyvät Parole-korpuksessa yhden kerran.

1ääniefektinä(5.6802e-06 %)
1genetzistä(5.6802e-06 %)
1emalikulho(5.6802e-06 %)

Listasta on ladattavissa kolme versiota. Laajimmassa on kaikki Parole-korpuksen sananmuodot. Koska tämä lista on varsin kookas (1 339 787 sananmuotoa), olemme lisänneet sen rinnalle keskilaajan listan, josta on poistettu kaikki sananmuodot, jotka esiintyvät vain kerran (tämä lista sisältää 542 521 sananmuotoa) ja suppean listan, josta on poistettu kaikki ne sananmuodot, jotka esiintyvät yhden tai kaksi kertaa (lista sisältää 362 514 sananmuotoa). Suppea lista lienee riittävä useimpiin käyttötarkoituksiin. Tekstitiedostojen merkistö on ISO-8859-1 (ISO Latin 1).

  • Suppea lista, poistettu vain yksi tai kaksi kertaa esiintyvät muodot (sis. 326 514 yleisintä sananmuotoa): parole_frek3.zip.
  • Keskilaaja lista, poistettu vain yhden kerran esiintyvät muodot (sis. 542 521 yleisintä sananmuotoa): parole_frek2.zip.
  • Laaja lista, sisältää kaikki sananmuodot (sis. 1 339 787 sananmuotoa): parole_frek1.zip.

Parole-korpuksen kymmenen yleisintä sananmuotoa
SijaLukumääräSanaOsuus
1552162ja3,1363 %
2428026on2,4312 %
3164098ei0,9321 %
4154320että0,8765 %
5126954oli0,7211 %
689469se0,5082 %
786711hän0,4925 %
878076mutta0,4434 %
977081ovat0,4378 %
1070811kuin0,4022 %

Parole-korpuksen 5 000 yleisintä sananmuotoa (HTML)

Yllä olevasta linkistä pääsee katsomaan taulukkoa, joka sisältää 5 000 yleisintä sananmuotoa Parole-korpuksesta. Taulukon kentät ilmaisevat sanan järjestysluvun taajuuden mukaan, sananmuodon esiintymien lukumäärän, itse sananmuodon ja sananmuodon esiintymien osuuden kaikista saneista.