Eesti keele ühendkorpus 2017

Praegu suurim eesti keele korpus on Eesti keele ühendkorpus ehk Estonian National Corpus 2017:
https://entu.keeleressursid.ee/shared/7058/I5b9fRw71Av4kvq4PigkR4OjffANq3ubF3JJdxIJVhROJUFEKKj4IQl85skINmNV

Korpuse kogumaht on ligi 1 miljard tekstisõna, aga kui hakata täpsemalt sisse vaatama, siis see sisaldab ka muudes keeltes tekste. Ainult eestikeelseid (<doc lang=”Estonian”>) on umbes 600 miljonit.

Korpuse on EstNLTK ja vabamorfi abil morfoloogiliselt märgendanud Lexical Computing. Kasutatud on vaikimisi lausetaseme ühestamist, mis on andnud rohkem vigu kui vältimatult tarvis. Nt sõna “mais” on läbivalt märgendatud kui mitmuse seesütlev sõnast “maa”, mille asemel korrektsem oleks peaaegu alati maikuu, pluss mõni üksik teravili. Seega, kui vormiinfo on oluline, võiks kaaluda EstNLTK abil uuestimärgendamist koos dokumenditaseme ühestamisega. Vigu see ei kaota, aga vähendada võib.

Uuestimärgendamisel on ka see eelis, et nii saab korpus loetud EstNLTK andmestruktuuridesse. Olemasoleva märgenduse otse lugemine praegu ei õnnestu, sest korpus kasutab eelmistega võrreldes muutunud vormingut ja 2018 sügise seisuga on selle lugemine EstNLTK tegijatel rubriigis “kunagi peaks kindlasti ära tegema”.

Vorming näeb välja selline:

<doc id="1070432" src="web17" title="Haigekassa lükkab ümber Pealtnägija saates kõlanud süüdistused | Eesti Haigekassa" length="5k-10k" crawl_date="2017-09-27 03:05" lang_old="Estonian" lang_diff="0.28" ip="185.147.120.115" url="http://haigekassa.ee/en/node/2578" enc_meta="utf-8" enc_chared="utf_8" lang="Estonian" lang_scores="Estonian: 3913.12, Russian: 0.00, English: 711.05, Finnish: 1022.45, Ukrainian: 0.00, Belarusian: 0.00, Serbian: 0.00, Bulgarian: 0.00, Macedonian: 0.00">
<p heading="yes" langdiff="0.81">
<s>
Haigekassa      S.sg.n  haigekassa-s    sg_n    haige kassa     haige_kassa     0       
lükkab  V.b     lükkama-v       b       lükka   lükka   b       
ümber   K       ümber-k         ümber   ümber   0       
Pealtnägija     S.sg.g  pealtnägija-s   sg_g    pealt nägija    pealt_nägija    0       
saates  S.sg.in saade-s sg_in   saade   saade   s       
kõlanud V.nud   kõlama-v        nud     kõla    kõla    nud     
süüdistused     S.pl.n  süüdistus-s     pl_n    süüdistus       süüdistus       d       
</s>
</p>
<p langdiff="0.47">
<s>
Saade   H.pl.g  Saa-h   pl_g    Saa     Saa     de      
Pealtnägija     S.sg.n  pealtnägija-s   sg_n    pealt nägija    pealt_nägija    0       
pöördus V.s     pöörduma-v      s       pöördu  pöördu  s       
haigekassa      S.sg.g  haigekassa-s    sg_g    haige kassa     haige_kassa     0       
poole   K       poole-k         poole   poole   0       
seoses  K       seoses-k                seoses  seoses  0       
Eesti   H.sg.g  Eesti-h sg_g    Eesti   Eesti   0       
Hemofiiliaühingu        S.sg.g  hemofiiliaühing-s       sg_g    hemofiilia ühing        hemofiilia_ühing        0       
esitatud        V.tud   esitama-v       tud     esita   esita   tud     
kahtlustega     S.pl.kom        kahtlus-s       pl_kom  kahtlus kahtlus tega    
<g/>
.       Z       .-z             .       .               

Dokumendi alguses on tema metainfo, mis tõenäoliselt võiks olla üsna iseseletuv. Seejärel tulevad lõigud p ja laused s, nende sees igal real sõna koos oma analüüsiga. Veerud on järgmised, koos näidetega:

  • tekstisõna: “veepudeliga”, “toimus”
  • posgram ehk sõnaliik ja vormikood: “S.sg.kom”, “V.s”
  • lempos ehk lemma ja sõnaliik: “veepudel-s”, “toimuma-v”
  • vormikood: “sg_kom”, “s”
  • eraldatud tüved: “vee pudel”, “toimu”
  • liitsõna tüvi: “vee_pudel”, “toimu”
  • muutelõpp: “ga”, “s”

<g/> nagu glue tähistab kohta, kus tokeniseerimisel on kirjavahemärgi ette tühik lisatud.

Tasub tähele panna, et perioodika alamkorpuses esineb ka <info> element, nii et <doc> on ajalehenumber ja <info> üksikartikkel. Nii satuvad mõned andmed, mis üldiselt on <doc>is, ajalehtede puhul <info>sse, nt:

<doc id="3850" src="NC" filename="aja_EPL_2007_06_01.ma" balanced="no" texttype="periodicals">
<info id="224313" author="Kalle Kulbok, kuningriiklane" newspaperNumber="Eesti Päevaleht 01.06.2007" heading="Kolumnistid" article="KALLE KULBOK : kuluhüvitise uus kord on põhiseaduse vastane">

Ühendkorpuse järgmist versiooni on Lexical Computingult oodata 2019.

1 thought on “Eesti keele ühendkorpus 2017

Comments are closed.

Arvi Tavast