Äsja jõudis avalikkuseni teade, et Postimees Grupp, Delfi Meedia ja Õhtuleht on piiranud ligipääsu oma sisule andmekaeve eesmärgil. Kuna see samm puudutab märkimisväärset osa meie ajakirjanduslikust pärandist, on kerkinud küsimused, kuidas peaks toimima avalik juurdepääs säilitatavale meediasisule ning kellel on õigus seda kasutada tehnoloogia arendamiseks.
Esmalt tuleb täpsustada, et meediamajade tegevuse tõttu ei ole Digar läinud “lukku”. Tavakasutaja jaoks ei ole midagi muutunud. Paljud raamatud ja ajalehenumbrid olid Digaris juba varem piiratud juurdepääsuga (ehk kasutaja jaoks väikese lukumärgi taha peidetud). See asjaolu väärib lähemat selgitust.
Kes pääseb ligi digiarhiivi sisule?
Seaduse kohaselt on kirjastajad, sh ajalehed ja digiväljaanded, kohustatud saatma rahvusraamatukogule koopiad oma väljaannetest, sealhulgas digitaalselt sündinud teostest. Rahvusraamatukogu ülesanne on neid säilitada ja vajadusel kasutajatele kättesaadavaks teha. Kättesaadavaks tegemiseks kasutab rahvusraamatukogu digiarhiivi Digar.
Samal ajal jäävad kõik autoriõigused teoste omanikele. Kirjastajal on seadusest tulenev õigus otsustada, kas ja kuidas tema teoseid digitaalselt näidatakse. Seetõttu ongi paljud ajalehenumbrid Digaris juba varemgi olnud “luku taga”.
Väljaannete ettevaatlikkus oma sisu laialdase jagamise suhtes on igati mõistetav, sest see on osa nende õigustatud soovist oma tööd ja ärimudelit kaitsta. Küll aga tasub küsida, kas juurdepääsu piiramine on põhjendatud ka kahe, kümne või isegi üle kolmekümne aasta vanuste uudiste puhul.
“Luku taga” tekstidele pääseb ligi vaid nn autoriseeritud töökohtadel ehk spetsiaalsetes arvutites, mis asuvad üksikutes raamatukogudes. See tähendab, et “luku taga” olevate teoste lugemiseks tuleb lugemissaali koha peale minna, kuigi tegu on digitaalse teabega. Selline süsteem tagab küll autoriõiguste kaitse, ent ei vasta enam hästi digiajastu ootustele. Autoriseeritud töökohad asuvad vaid viies teadusraamatukogus, kõik kas Tallinnas või Tartus. See seab kehvemasse olukorda need, kes elavad mujal Eestis, ja liikumisraskustega inimesed.
Rahvusraamatukogu töötab praegu juriidilise ja tehnilise lahenduse kallal, mis võimaldaks luua virtuaalseid autoriseeritud töökohti kõigis rahvaraamatukogudes, nii saaks juurdepääs laieneda üle Eesti, ilma et see rikuks kirjastajate õigusi.
Digari avalehekülg. Autor/allikas: Kuvatõmmis www.digar.ee/arhiiv
Kes täidab omakeelsest infost jäänud tühimiku?
Oluline on mõista, et eestikeelse sisu nähtavus ja kättesaadavus ei ole pelgalt mugavuse küsimus. Kui meie oma ajakirjanduslik ja kultuuriline sisu on raskesti ligipääsetav, hakkab avalikku arutelu üha enam kujundama võõrkeelne ja kontrollimata teave.
Ajakirjanduse roll on ühiskonda informeerida ja kui selle töö tulemused ei ole nähtavad, on raskem võidelda propaganda ning valeinfo vastu. Samuti võib oodata võõrkeelse sisu veelgi suuremat pealetungi kõigis eluvaldkondades, sest kui kohalik teave pole saadaval, toetutakse välismaisele.
Lisaks kannatab haridus. Oletame, et Saaremaa kooliõpilane tahab teha referaati Eestis jõevähke ohustavate võõrliikide kohta ja vajab selleks allikaid.
Digiriigis elades eeldaks, et kõik vajalikud ajalehenumbrid võiksid koduarvutis kättesaadavad olla. Reaalsuses tuleb tal sõita kas Tartusse või Tallinnasse, et artikleid lugeda autoriseeritud töökohal. Seda ta ilmselt ette ei võta, isegi kui bussipiletiks raha jätkub. Pigem valib ta mõne “lihtsama” teema ehk sellise, mille kohta leiab infot veebiallikatest. Piiratud ligipääs kohalikule teabele suunab globaalse ja välismaise poole.
Mitmed riigid on tajunud, et infoajastul võidab see, kelle teave on kättesaadavam, ning selle probleemi teisiti lahendanud.
Näiteks Norras on rahvusraamatukogu ja kirjastajate vahel sõlmitud nn raamaturiiuli kokkulepe (Bokhylla-avtalen), mille järgi on kõik kuni 2005. aastani ilmunud, sh autoriõigusega kaitstud teosed, kõigilt Norra IP-aadressidelt vabalt veebis loetavad. Tulemusena on oluliselt tõusnud norrakeelse teabe ja kultuuri kättesaadavus ning lepingut uuendatakse regulaarselt, et hõlmata ka uuemaid väljaandeid.
Andmekaeve – kellele ja milleks?
Tuleme nüüd andmekaeve juurde. Nagu öeldud, ei muutnud meediamajade kevadine otsus tavalugeja jaoks tegelikult midagi, sest arvestatav osa nende arhiivisisu oli juba varem vaid autoriseeritud töökohtadel loetav. Oma sammuga keelasid meediamajad hoopis oma väljaannete sisu kasutamise andmekaeveks ärilistel eesmärkidel.
Mida see tähendab? Andmekaeve on suurte andmemassiivide automaatne analüüs seoste ja mustrite tuvastamise eesmärgil. Seda kasutatakse nii keeletehnoloogias kui ka teadusuuringutes, ajakirjanduse analüüsis ja kultuuripärandi uurimisel. Andmekaevel põhinevad ka näiteks meediamonitooring ja mitmed teised teenused.
Andmekaeve ei piirdu seega kaugeltki tehisintellekti treenimisega. Küll aga on generatiivse tehisintellekti esiletõus selle muutnud majanduslikus mõttes tundlikuks tegevuseks. Kui varem kasutati andmekaevet pigem analüüsideks, siis nüüd võib kaevandatud andmetest saada tooraine sellistele toodetele nagu ChatGPT. Meediamajad kasutasid seaduses ette nähtud nn opt-out klauslit ja välistasid oma teoste peal igasuguse andmekaeve, mis võib teenida kellegi ärihuve.
Nagu väljaanded ka ise on seletanud, muretsevad nad oma sisu reeglitekohase kasutamise pärast. Nende kartus on arusaadav ja leidnud kajastamist nii meil kui ka mujal, näiteks USA-s on mitmed väljaanded tehisarufirmade vastu kohtusse läinud, et nõuda oma artiklite kasutamise eest hüvitist. Meediasisu on selgelt intellektuaalomandi kaitse all ning selle kasutamine peab toimuma kooskõlas seadustega.
Mis on kultuuripärandi hind?
Meediamajade otsus juhib tähelepanu ühele olulisele valukohale: Eestis on endiselt lahendamata küsimus, kuidas toetada meie ühiseid huve teenivat andmekaevet. Nimelt ei saa kogu äritegevust ühte patta panna. Ühes äärmuses on globaalsed tehnohiiud, mis teenivad varjatult kogutud andmete pealt tohutuid summasid, teises aga kohalikud ja avatumalt tegutsevad ettevõtted, kelle tööst võiks sündida kasu kogu ühiskonnale.
“Näiteks on mõned meediamajad oma artikleid suurtele tehisarufirmadele ise pakkunud, raha eest muidugi.”
On märke, et väljaanded ei muretsegi niivõrd intellektuaalomandi puutumatuse, vaid lihtsalt saamata jäänud tulu pärast. Näiteks on mõned meediamajad oma artikleid suurtele tehisarufirmadele ise pakkunud, raha eest muidugi. Olukord, kus ühe käega keeratakse kinni tavalugeja ligipääs ajakirjandustekstidele, teise käega aga proovitakse neid välismaale maha müüa, on pehmelt öeldes kummastav. Tahtmatult meenub lugu indiaanlastest, kes Manhattani klaashelmeste eest maha müüsid, saamata ise aru, mille nad ära andsid.
Või kujutage hoopis ette omaaegset külanaist, kes vastab rahvaluulekogujale, et tema laulab ainult raha eest – ja üleüldse, teil pole siin enam midagi teha, kõik regilaulud on juba sakslastele maha müüdud!
Tegu on liialdatud võrdlusega, aga ainult veidi. Jakob Hurt ja tema kaastöölised mõistsid, et pärimuse kogumine ei ole pelgalt arhiivitöö, vaid investeering tulevikku. Nende töö aitas laduda meie rahvusliku eneseteadvuse vundamenti. Peaksime nendest eeskuju võttes püüdlema selle poole, et meie keele- ja kultuuriandmed – tekstid, pildid ja kõik muu oluline – säiliksid, oleksid kaitstud ja samas kättesaadavad. Ja mis peamine: et neist saaksid kasu Eesti inimesed ise, mitte keegi teine.
Kuidas andmetega targalt ümber käia?
Turuloogika alusel on tehnohiiud kohalike huvipooltega võrreldes tugevas eelisseisus. Eesti ja meie partnerite võimalused andmekaeve eest maksta ei küüni kunagi Google’i või OpenAI tasemele. Kui me aga ei toeta kohapealset innovatsiooni tehisaru valdkonnas kvaliteetsete andmetega, mängime ennast lihtsalt nurka. Kvaliteetse ja omakeelse tehisaru puudumisest tulenevatele ohtudele on korduvalt tähelepanu juhitud.*
Tulevikus võib eestikeelne tehisaru eksisteerida ainult suurkorporatsioonide tasuliste mudelite kujul, mida kasutades maksame andmete eest saadud ühekordse tulu lõpuks teenustasudena tagasi.
Üks võimalik alternatiiv on avatud mudelite võimestamine. Avatud mudeleid saaks kasutada meie oma serverites siinsamas Eestis ilma vahendustasu ja andmekaitseprobleemideta (mis on paljude asutuste puhul tehisaru kasutamist takistavad tegurid).
Kahjuks ei oska sellised mudelid enamasti vajalikul tasemel eesti keelt ning ilma andmekaeveta pole ka võimalik neile seda õpetada. Ühekordse rahalise kompensatsiooni otsimise asemel tuleks seega keskenduda meie strateegilise ressursi – andmete – kohapealsele väärindamisele. Nii saame oma andmetest ka kümne ja ehk isegi saja aasta pärast tulu.
Opt-out’i asemel opt-in
Rahvusraamatukogul on hea meel, et kultuuripärandi kättesaadavuse ja andmekaeve teemad on avalikkuses esile kerkinud. Nüüd on õige hetk koos laua taha istuda. Meediamajad, kirjastajad, autorid ning TI arendajad peaksid ühiselt leidma tasakaalu ligipääsu, intellektuaalomandi kaitse ja innovatsiooni võimaldamise vahel.
Ka mitmed teised riigid on juba mõistnud, et tegu ei ole teineteist välistavate, vaid toetavate väärtustega. Taas võime vaadata Norra poole, kus sõlmitud lepingud on võimaldanud kohalikel laboritel luua senisest palju kvaliteetsemaid norrakeelseid tehisarumudeleid.
Island on teistele väikeriikidele teed näidanud selles osas, kuidas oma keelt ja kultuuri tehisaru ajastul kaitsta. Lätis ja Soomes aga tegutsevad võimekad tehisaruettevõtted, kellel on mudelite treenimiseks lubatud kasutada kohalikke andmeid.
Ühise eesmärgi nimel tegutsemine võiks olla võimalik ka Eestis. Lisaks seaduses ette nähtud opt-out võimalusele võiks autoriõiguste omanikel olla võimalik kasutada ka “opt-in’i” ehk teha valik oma loomingu andmiseks ühiskonna teenistusse. Peame mõistma, et siin ei ole võitjaid ja kaotajaid, vaid omakeelse kultuuri kättesaadavus nii tavalugejale kui ka andmekaeve jaoks teenib meie kõigi huve.
* Ühispöördumine. Vajame eestikeelse tehisaru jaoks ühiskondlikku kokkulepet; Ivo Visak: mitte midagi tegemine ei ole lahendus; Tanel Tammet: rumal tehisaru peletab eestlased võõrasse kultuuriruumi; Külli Taro: tehisaru mudelid vajavad kvaliteetset eesti keelt.