Eesti Keele Instituudi suvel tehtud katses selgus, et suured keelemudelid tõlgendavad eesti keele sõnu ebaühtlaselt. Näitena analüüsiti sõna pedakas, mille tähendusi tuvastasid GPT, Claude ja Gemini erinevalt.

Mitme nimega pedakas ehk pedajas ehk pedak on läänemeresoome-permi tüvega sõna. Mainitud kujud on levinumad Lõuna-Eesti aladel. Üle Eesti levinud mänd on pedaka ajalooliselt uuem nimetus. Sõnal pedakas on ka homonüüm, mida kasutatakse endise Tallinna pedagoogilise instituudi või hilisema Tallinna pedagoogikaülikooli – ehk ajalooliselt uuema nimega Tallinna Ülikooli – üliõpilase või vilistlase kohta. Eesti keele ühendkorpuses (2023) esineb pedakas 204 lauses, mis näitab, et see pole väga harv sõna, ent samas ka mitte eriti sage võrreldes oma teiste kujudega (nt pedajas 9000 ja mänd 66 600 vastet, ent suur osa neist esineb perekonnanimena).

Ühesõnaga, tegime EKI kolleegidega suvel 2025 katse,1 milles võrdlesime suuri keelemudeleid, ja pedakas sattus olema hea näide valitud mudelite, Anthropicu Claude’i Opus 4.1, Google’i Gemini 2.5 Pro ning OpenAI GPT-4o erinevustest. Detailidesse laskumata keskendun ühele ülesandele, kus neil tuli tuvastada, millises tähenduses sõna pedakas on kasutatud (vt kokkuvõtet tabelist allpool). Ülesannet lahendati kaks korda: ühel juhul analüüsisid mudelid etteantud konteksti ehk keelekorpuse lauseid ning teisel, eraldiseisval juhul toetusid need üksnes tekstidele, mida olid näinud oma eeltreeningus, ehk n-ö vaatasid iseenda sisse.

Räägin kõigepealt esimesest, korpuselausete poolest. Claude leidis sõnale pedakas materjalist kaks tähendust: ‘mänd’ ja ‘Peda tudeng või vilistlane’. GPT ja Gemini tuvastasid peale eelmainitute ka kolmanda tähenduse. GPT nimelt pakkus, et see esineb perekonnanimena – uurisin korpusmaterjali lähemalt ning selgus, et Pedakas esineb seal küll nimena, ent hoopis küla või talu nimena. Gemini, mis katses üleüldiselt tähendusi liiga palju pakkus ja liiga peenelt eristas, nime ei tuvastanud, seevastu oli see pidanud üht korpuses esinenud trükiviga pedaka tähenduseks ning pakkus kolmandaks ‘homoseksuaalne mees’ sõimusõnana2. Kuna mudelitele oli promptis kirjeldatud roll olla eesti keele sõnaraamatu koostaja, siis võinuks ka Gemini sellest tuletada, et iga üksikut trükiviga sõnaraamatus tähendusena ei kirjeldata.

Teisel juhul, oma eeltreeningus nähtud tekstide põhjal, pakkusid GPT ja Gemini samuti pedakale adekvaatselt ‘männi’ tähendust, Claude aga mitte, vaid pakkus üksnes halvustavalt kasutatavat ‘homoseksuaalse mehe’ tähendust. Katses üldiselt oli GPT ainus, mis ütles n-ö ausalt, kui ei osanud sõna kohta midagi öelda, ent Claude ja Gemini tegid alati kasvõi oletusi. See ilmestab, et mudeleid on treenitud mingigi vastus andma, ehkki need ei pruugi sõna (ära) tunda. Meie katses vastasidki mudelid korpuselauseid analüüsides eesti sõnade tähenduste kohta paremini kui vaid enda materjalile toetudes, kus need kippusid rohkem oletama.

Ehk siis võib öelda, et kahtluse korral tuleb mudelite vastused üle kontrollida, mitte neid pimesi uskuda.

Keelesäutsu lisa Autor/allikas: Lydia Risberg

1 Katse kohta saab lähemalt lugeda aprillis ilmuvast Eesti Rakenduslingvistika Ühingu aastaraamatust.

2 Loe ka Aet Kuusiku artiklit “Vaenusõna pede muutuv roll” (Ariadne Lõng nr 21, lk 32–64).