27
Valstybės skaitmeninių sprendimų agentūra (VSSA) kartu su Vytauto Didžiojo universitetu (VDU), UAB Neurotechnology, UAB Tilde Lietuva ir MB Krilas įgyvendina projektą „Bendrojo lietuvių kalbos tekstyno ir vektorizuotų modelių sukūrimas“. Lapkričio 3 d. tapo viešai prieinamas ir atviras naudoti pirmasis praktinis Projekto rezultatas – Mažasis lietuvių kalbos vektorizuotas modelis.
Pirmiausia – duomenys
Sėkmingam ir efektyviam dirbtinio intelekto (DI) technologijų vystymui pirmiausia yra būtini itin gausūs ir kokybiški kalbiniai ištekliai.
Bendrasis lietuvių kalbos tekstynas bus didžiausias lig šiol sukauptas lietuviškas tekstynas. Jį sudarys patikrinti, žmogaus kurti (ne DI generuoti) tekstai – iš viso net 3,5 mlrd. žodžių.
Apmokytas pirmasis neuroninis lietuvių kalbos modelis
Panaudojant Tekstyną, kuriami du iš anksto apmokyti (angl. pre-trained) neuroniniai lietuvių kalbos modeliai – mažasis ir didysis. Tokie modeliai užkoduoja kalbą kompiuteriui suprantamu būdu, taip sudarydami sąlygas DI inovacijų kūrėjams vystyti įvairius DI sprendimus, pvz., pokalbių robotus, teksto generavimo įrankius ir kt.
Pirmasis praktinis Projekto rezultatas – Mažasis lietuvių kalbos vektorizuotas modelis (LT-MLKM-modernBERT) – jau pasiekiamas atvirojoje prieigoje, Hugging Face platformoje.
Mažasis lietuvių kalbos vektorizuotas modelis: VSSA-SDSA (State Digital Solutions Agency (LT))
Mažojo lietuvių kalbos vektorizuoto modelio validavimo kodas: VSSA-AtvirasKodas-LT/LT_AI-NER
Mažojo lietuvių kalbos vektorizuoto modelio metaduomenys: Lietuvos atvirų duomenų portalas | Mažasis lietuvių kalbos vektorizuotas modelis
„Mažasis lietuvių kalbos vektorizuotas modelis yra apmokytas su daugiau nei puse planuojamo sukaupti Tekstyno, t. y. 1,87 mlrd. žodžių. Galima sakyti, kad kol kas tai yra didžiausias tokios kokybės lietuvių kalbos tekstų rinkinys vienoje vietoje“, – teigia tiekėjų grupės vadovas VDU vyresnysis mokslo darbuotojas dr. Andrius Utka.
Rinkoje konkurencingas lietuviškas vektorizuotas modelis
Modelio veikimas patikrintas pritaikius jį konkrečiai užduočiai – įvardytųjų esybių atpažinimui (angl. named entity recognizer; NER). Įsitikinta, kad modelis tekstuose gali sėkmingai atpažinti įvardytąsias esybes, t. y. asmenvardžius, vietovardžius, datas ir kt. Tai svarbu norint anonimizuoti tekstus, atlikti specifinės informacijos paiešką tekstuose ir pan. Modelis taip pat gali būti pritaikytas sentimentų tekste analizei ir kitoms užduotims. Įvardintųjų esybių atpažinimui pritaikytas modelis (LT-NER-modernBERT) taip pat yra patalpintas atviroje prieigoje.
„Kurdami Mažąjį lietuvių kalbos vektorizuotą modelį atlikome keliasdešimt eksperimentų tiek su skirtingais modeliais, tiek su modifikacijomis. Šis modelis yra žymiai geresnis negu esami rinkoje. Kas yra įdomu, kad tokius lietuvių kalbos modelius buvo kūrę slovėnų, slovakų tyrėjai, bet lietuviško vardo ten nerasi. Dabar yra lietuviškas modelis, kurį sukūrė lietuviai“, – sako UAB Neurotechnology natūralios kalbos apdorojimo vyr. specialistas Vytas Mulevičius.
Įgyvendinus Projektą visi Tekstyno duomenys bus viešai prieinami ir galimi perpanaudoti kitiems lietuvių kalbos modeliams kurti.
Projektu prisidedama prie 2021–2030 metų Lietuvos Respublikos Ekonomikos ir inovacijų ministerijos valstybės skaitmeninimo plėtros programos pažangos priemonės Nr. 05-002-01-07-08 „Kurti technologinius sprendimus ir įrankius, leidžiančius saugiai ir patogiai naudotis paslaugomis“ veiklos „Kalbinių išteklių dirbtinio intelekto technologijų sprendimų poreikiams plėtra“ įgyvendinimo.
Projektas įgyvendinamas Ekonomikos gaivinimo ir atsparumo didinimo priemonės (RRF) lėšomis.