Kotimaisten kielten keskus

Vanhan kirjasuomen sanojen taajuuksia

Tämä sivu sisältää vanhan kirjassuomen kielen sanojen taajuuslistan.Taajuuslistaan sisältyvät Kotuksen vanhan kirjasuomen tekstikorpuksessa esiintyvät sananmuodot taajuustietoineen.

Teksti on käsitelty ennen sananmuotojen laskemista siten, että isot kirjaimet on muutettu pieniksi ja tekstistä on poistettu kaikki ne merkkijonot, jotka eivät sisällä yhtäkään numeroa tai kirjainta, mm. välimerkit. Lista on järjestetty siten, että yleisin sananmuoto on listassa ensimmäisenä. Näin määriteltynä korpuksessa on sanoja 3 425 382 kappaletta

Taajuuslistassa jokaiseen sananmuotoon liittyy sen taajuudenmukainen järjestysluku, sen esiintymien lukumäärä aineistossa ja sananmuodon esiintymien suhteellinen osuus prosentteina aineiston kaikista saneista. Alla olevassa taulukossa on kymmenen VKS-korpuksen yleisintä sanaa.

SijaLukumääräSanaOsuus
1165891ja4,8429 %
252290on1,5265 %
337302ia1,0889 %
431436se0,9177 %
529876että0,8721 %
628860nijn0,8425 %
728822hän0,8414 %
826173eli0,7640 %
926137sen0,7630 %
1026083hänen0,7614 %

Vanhan kirjasuomen 5 000 yleisintä sanamuotoa (HTML)

Kaikki sanamuodot sisältävä tekstimuotoinen taajuuslista: vks_frek.zip (pakattu).