Kotimaisten kielten keskus

Varhaisnykysuomen sanojen taajuuksia

Tämä sivu sisältää varhaisnykysuomen (1800-luvun suomen kielen) sanojen taajuuslistan.Taajuuslistaan sisältyvät Kotuksen varhaisnykysuomen tekstikorpuksessa esiintyvät sananmuodot taajuustietoineen. Listasta on jätetty pois seuraavat sanalistat ja -kirjat: Ahlmanin sanakirja, Heleniuksen sanakirja, Lönnrotin sanastoja, Renvallin sanakirja, Sanaluettelot ja Suomalainen Puhuttelija - Finsk Parlör.

Teksti on käsitelty ennen sananmuotojen laskemista siten, että isot kirjaimet on muutettu pieniksi ja tekstistä on poistettu kaikki ne merkkijonot, jotka eivät sisällä yhtäkään numeroa tai kirjainta, mm. välimerkit. Lista on järjestetty siten, että yleisin sananmuoto on siinä ensimmäisenä.

Taajuuslistassa jokaiseen sananmuotoon liittyy sen taajuudenmukainen järjestysluku, sen esiintymien lukumäärä aineistossa ja sananmuodon esiintymien suhteellinen osuus prosentteina aineiston kaikista saneista. Saneita listaa varten käsitellyssä korpuksessa on yhteensä 4 862 190. Alla olevassa taulukossa on kymmenen korpuksen yleisintä sanaa.

SijaLukumääräSanaOsuus
1190254ja3,9129 %
289041on1,8312 %
339284ei0,8079 %
438486että0,7915 %
537615niin0,7736 %
633120kuin0,6811 %
730283se0,6228 %
826258hän0,5400 %
925486joka0,5241 %
1025318mutta0,5207 %

Varhaisnykysuomen 5 000 yleisintä sanamuotoa (HTML)

Kaikki sanamuodot sisältävä tekstimuotoinen taajuuslista: vns_frek.zip (pakattu).