{"id":37037,"date":"2025-11-10T17:07:08","date_gmt":"2025-11-10T17:07:08","guid":{"rendered":"https:\/\/www.europesays.com\/lt\/37037\/"},"modified":"2025-11-10T17:07:08","modified_gmt":"2025-11-10T17:07:08","slug":"sukurtas-pirmasis-lietuviu-kalbos-dirbtinio-intelekto-modelis-lietuviu-tyreju-zingsnis-i-di-ateiti","status":"publish","type":"post","link":"https:\/\/www.europesays.com\/lt\/37037\/","title":{"rendered":"Sukurtas pirmasis lietuvi\u0173 kalbos dirbtinio intelekto modelis: lietuvi\u0173 tyr\u0117j\u0173 \u017eingsnis \u012f DI ateit\u012f"},"content":{"rendered":"<p>27<\/p>\n<p>Valstyb\u0117s skaitmenini\u0173 sprendim\u0173 agent\u016bra (VSSA) kartu su Vytauto Did\u017eiojo universitetu (VDU), UAB Neurotechnology, UAB Tilde Lietuva ir MB Krilas \u012fgyvendina projekt\u0105 \u201eBendrojo lietuvi\u0173 kalbos tekstyno ir vektorizuot\u0173 modeli\u0173 suk\u016brimas\u201c. Lapkri\u010dio 3 d. tapo vie\u0161ai prieinamas ir atviras naudoti pirmasis praktinis Projekto rezultatas \u2013 Ma\u017easis lietuvi\u0173 kalbos vektorizuotas modelis.\u00a0<\/p>\n<p>Pirmiausia \u2013 duomenys<\/p>\n<p>S\u0117kmingam ir efektyviam dirbtinio intelekto (DI) technologij\u0173 vystymui pirmiausia yra b\u016btini itin gaus\u016bs ir kokybi\u0161ki kalbiniai i\u0161tekliai.\u00a0<\/p>\n<p>Bendrasis lietuvi\u0173 kalbos tekstynas bus did\u017eiausias lig \u0161iol sukauptas lietuvi\u0161kas tekstynas. J\u012f sudarys patikrinti, \u017emogaus kurti (ne DI generuoti) tekstai \u2013 i\u0161 viso net 3,5 mlrd. \u017eod\u017ei\u0173.\u00a0<\/p>\n<p>Apmokytas pirmasis neuroninis lietuvi\u0173 kalbos modelis\u00a0<\/p>\n<p>Panaudojant Tekstyn\u0105, kuriami du i\u0161 anksto apmokyti (angl. pre-trained) neuroniniai lietuvi\u0173 kalbos modeliai \u2013 ma\u017easis ir didysis. Tokie modeliai u\u017ekoduoja kalb\u0105 kompiuteriui suprantamu b\u016bdu, taip sudarydami s\u0105lygas DI inovacij\u0173 k\u016br\u0117jams vystyti \u012fvairius DI sprendimus, pvz., pokalbi\u0173 robotus, teksto generavimo \u012frankius ir kt.\u00a0<\/p>\n<p>Pirmasis praktinis Projekto rezultatas \u2013 Ma\u017easis lietuvi\u0173 kalbos vektorizuotas modelis (LT-MLKM-modernBERT) \u2013 jau pasiekiamas atvirojoje prieigoje, Hugging Face platformoje.\u00a0<\/p>\n<p>Ma\u017easis lietuvi\u0173 kalbos vektorizuotas modelis: <a href=\"https:\/\/huggingface.co\/VSSA-SDSA\" rel=\"nofollow noopener\" target=\"_blank\">VSSA-SDSA (State Digital Solutions Agency (LT))<\/a>\u00a0<\/p>\n<p>Ma\u017eojo lietuvi\u0173 kalbos vektorizuoto modelio validavimo kodas: <a href=\"https:\/\/github.com\/VSSA-AtvirasKodas-LT\/LT_AI-NER\" rel=\"nofollow noopener\" target=\"_blank\">VSSA-AtvirasKodas-LT\/LT_AI-NER<\/a>\u00a0<\/p>\n<p>Ma\u017eojo lietuvi\u0173 kalbos vektorizuoto modelio metaduomenys: <a href=\"https:\/\/data.gov.lt\/datasets\/3923\/\" rel=\"nofollow noopener\" target=\"_blank\">Lietuvos atvir\u0173 duomen\u0173 portalas | Ma\u017easis lietuvi\u0173 kalbos vektorizuotas modelis<\/a>\u00a0<\/p>\n<p>\u201eMa\u017easis lietuvi\u0173 kalbos vektorizuotas modelis yra apmokytas su daugiau nei puse planuojamo sukaupti Tekstyno, t. y. 1,87 mlrd. \u017eod\u017ei\u0173. Galima sakyti, kad kol kas tai yra did\u017eiausias tokios kokyb\u0117s lietuvi\u0173 kalbos tekst\u0173 rinkinys vienoje vietoje\u201c, \u2013 teigia tiek\u0117j\u0173 grup\u0117s vadovas VDU vyresnysis mokslo darbuotojas dr. Andrius Utka.\u00a0<\/p>\n<p>Rinkoje konkurencingas lietuvi\u0161kas vektorizuotas modelis\u00a0<\/p>\n<p>Modelio veikimas patikrintas pritaikius j\u012f konkre\u010diai u\u017eduo\u010diai \u2013 \u012fvardyt\u0173j\u0173 esybi\u0173 atpa\u017einimui (angl. named entity recognizer; NER). \u012esitikinta, kad modelis tekstuose gali s\u0117kmingai atpa\u017einti \u012fvardyt\u0105sias esybes, t. y. asmenvard\u017eius, vietovard\u017eius, datas ir kt. Tai svarbu norint anonimizuoti tekstus, atlikti specifin\u0117s informacijos paie\u0161k\u0105 tekstuose ir pan. Modelis taip pat gali b\u016bti pritaikytas sentiment\u0173 tekste analizei ir kitoms u\u017eduotims. \u012evardint\u0173j\u0173 esybi\u0173 atpa\u017einimui pritaikytas modelis (LT-NER-modernBERT) taip pat yra patalpintas atviroje prieigoje.\u00a0\u00a0<\/p>\n<p>\u201eKurdami Ma\u017e\u0105j\u012f lietuvi\u0173 kalbos vektorizuot\u0105 model\u012f atlikome keliasde\u0161imt eksperiment\u0173 tiek su skirtingais modeliais, tiek su modifikacijomis. \u0160is modelis yra \u017eymiai geresnis negu esami rinkoje. Kas yra \u012fdomu, kad tokius lietuvi\u0173 kalbos modelius buvo k\u016br\u0119 slov\u0117n\u0173, slovak\u0173 tyr\u0117jai, bet lietuvi\u0161ko vardo ten nerasi. Dabar yra lietuvi\u0161kas modelis, kur\u012f suk\u016br\u0117 lietuviai\u201c, \u2013 sako UAB Neurotechnology nat\u016bralios kalbos apdorojimo vyr. specialistas Vytas Mulevi\u010dius.\u00a0<\/p>\n<p>\u012egyvendinus Projekt\u0105 visi Tekstyno duomenys bus vie\u0161ai prieinami ir galimi perpanaudoti kitiems lietuvi\u0173 kalbos modeliams kurti.<\/p>\n<p>Projektu prisidedama prie 2021\u20132030 met\u0173 Lietuvos Respublikos Ekonomikos ir inovacij\u0173 ministerijos valstyb\u0117s skaitmeninimo pl\u0117tros programos pa\u017eangos priemon\u0117s Nr. 05-002-01-07-08 \u201eKurti technologinius sprendimus ir \u012frankius, leid\u017eian\u010dius saugiai ir patogiai naudotis paslaugomis\u201c veiklos \u201eKalbini\u0173 i\u0161tekli\u0173 dirbtinio intelekto technologij\u0173 sprendim\u0173 poreikiams pl\u0117tra\u201c \u012fgyvendinimo.\u00a0<\/p>\n<p>Projektas \u012fgyvendinamas Ekonomikos gaivinimo ir atsparumo didinimo priemon\u0117s (RRF) l\u0117\u0161omis.\u00a0<\/p>\n<p><img loading=\"lazy\" decoding=\"async\" data-lazyloaded=\"1\" width=\"100\" height=\"100\" src=\"https:\/\/www.europesays.com\/lt\/wp-content\/uploads\/2025\/11\/1762794428_294_\" alt=\"Sukurtas pirmasis lietuvi\u0173 kalbos dirbtinio intelekto modelis: lietuvi\u0173 tyr\u0117j\u0173 \u017eingsnis \u012f DI ateit\u012f\"\/><\/p>\n","protected":false},"excerpt":{"rendered":"27 Valstyb\u0117s skaitmenini\u0173 sprendim\u0173 agent\u016bra (VSSA) kartu su Vytauto Did\u017eiojo universitetu (VDU), UAB Neurotechnology, UAB Tilde Lietuva ir&hellip;\n","protected":false},"author":2,"featured_media":37038,"comment_status":"","ping_status":"","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[17],"tags":[81,37,39,36,38,40,46],"class_list":{"0":"post-37037","1":"post","2":"type-post","3":"status-publish","4":"format-standard","5":"has-post-thumbnail","7":"category-verslas","8":"tag-business","9":"tag-lietuva","10":"tag-lietuviu","11":"tag-lithuania","12":"tag-lithuanian","13":"tag-lt","14":"tag-verslas"},"share_on_mastodon":{"url":"https:\/\/pubeurope.com\/@lt\/115526503267808162","error":""},"_links":{"self":[{"href":"https:\/\/www.europesays.com\/lt\/wp-json\/wp\/v2\/posts\/37037","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.europesays.com\/lt\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.europesays.com\/lt\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.europesays.com\/lt\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"https:\/\/www.europesays.com\/lt\/wp-json\/wp\/v2\/comments?post=37037"}],"version-history":[{"count":0,"href":"https:\/\/www.europesays.com\/lt\/wp-json\/wp\/v2\/posts\/37037\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.europesays.com\/lt\/wp-json\/wp\/v2\/media\/37038"}],"wp:attachment":[{"href":"https:\/\/www.europesays.com\/lt\/wp-json\/wp\/v2\/media?parent=37037"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.europesays.com\/lt\/wp-json\/wp\/v2\/categories?post=37037"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.europesays.com\/lt\/wp-json\/wp\/v2\/tags?post=37037"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}