Lumi-tekoälytehtaassa on tietokanta suomalaisten lahjoittamasta puheesta. Siitä voi syntyä puheentunnistamisen sovelluksia esimerkiksi lääkärien avuksi potilastyöhön.

Avaa kuvien katselu
Tekoälytehdas hyödyntää alkuvaiheessa Lumi-supertietokonetta CSC:n datakeskuksessa Kajaanissa. Uuden tekoälytehtaan rakentaminen Lumin viereen on jo alkanut. Kuva: Ville Kinnunen / Yle
Juttu tiivistettynä
- CSC:n uusi Lumi-tekoälytehdas aloitti toimintansa Kajaanissa, ja sen ensimmäinen datasetti sisältää suomalaisten lahjoittamaa arkipuhetta vuosilta 2020–2024.
- Puheentunnistussovellukset voivat esimerkiksi helpottaa lääkäripulaa, kun lääkärit saavat potilaskeskustelut suoraan tekstiksi ja voivat käyttää työaikansa tehokkaammin.
- Helsingin yliopiston tutkimusjohtaja Krister Lindén ennustaa puheentunnistuksen yleistyvän kotiautomaatiossa ja laitteissa, joita käytetään kun kädet ovat varattuja.
- Tekoälytehtaan vahvuus on, että tietoaineistot ja Lumi-supertietokoneen laskentateho ovat samassa paikassa, mikä mahdollistaa tehokkaan tekoälymallien kehittämisen.
Tämä on tekoälyn avulla tuotettu, toimittajan tarkistama tiivistelmä.
Tieteen tietotekniikan keskuksen CSC:n uusi Lumi-tekoälytehdas on aloittanut toimintansa Kajaanissa.
Yksi tehtaan ensimmäisistä tarjolla olevista dataseteistä on suomen ja ruotsin puhekielen tietopankki, joka on koostettu ihmisten lahjoittamasta arkisesta puheesta.
Puhetta kerättiin vuosina 2020–2024 Lahjoita puhetta -kampanjassa, jossa myös Yle oli mukana.
Kyseessä on erittäin arvokas tietopankki, kertoo Helsingin yliopiston digitaalisten ihmistieteiden osaston tutkimusjohtaja Krister Lindén.
Lahjoitetusta puheesta voidaan rakentaa puhekielistä ja murteella puhuttua suomea ymmärtäviä puheentunnistussovelluksia.
Niiden avulla esimerkiksi lääkärit voivat saada keskustelut potilaiden kanssa suoraan tekstiksi aiempaa tarkemmin, kuvailee Lindén.
– Lääkärin tarvitsee lähinnä tarkistaa, että potilaan puhe on tallentunut tekstiksi oikein. Tämän ansiosta lääkäri voi käyttää työaikansa mahdollisimman hyödyllisesti, mikä voi jopa helpottaa lääkäripulaa, sanoo Lindén.
Puhelahjat eli Lahjoita puhetta -kampanjan tulokset
- Ensimmäisessä kokonaisessa versiossa on 3 200 tuntia puhetta, josta noin 1 600 tuntia on litteroitu eli kirjoitettu auki.
- Saatavilla on myös pienempi 131 tunnin versio, jonka Aalto-yliopisto on tehnyt erityisesti automaattisen puheentunnistuksen kehittämistä, opettamista ja testaamista varten.
- Puhetta keräsivät Yle, Helsingin yliopisto ja Vake Oy (nyk. Ilmastorahasto) 1.6.2020–6.3.2024.
- Aineistot löytyvät Kielikeskuksen netistä.
Katso alla olevalta videolta, mitä merkitystä Lindénin mukaan on suomenkielisen puheentunnistuksen kehittymisellä.
Video: Ville Kinnunen / Yle”Kauaskantoisia vaikutuksia”
Lääkäriasioinnin lisäksi puhekielisellä puheentunnistuksella on monta muuta käyttökohdetta. Lindén ennustaa, että erilaisia laitteita aletaan vähitellen yhä enemmän käyttää puheella myös suomeksi.
Hän arvioi, että suomenkielistä puheentunnistusta ilmestyy pian moneen erilaiseen paikkaan, jossa kätemme ovat jo varattuja mutta silti pitäisi saada ohjattua jotakin laitetta, arjen sovelluksia ja kotiautomaatiota.
– Tällä on kauaskantoisia vaikutuksia. Suomenkielinen puheentunnistus muuttaa vähitellen tapaa, jolla käytämme tietokoneita, tekoälyä ja robotteja, jolloin niitä on myös helpompi sulauttaa ympäristöömme, Lindén arvioi.
Lahjoitettu puhekielinen puhe on tärkeä osa laajempaa suomen kielen kielimallin luomista.
Puhekielisen puheen aineistoja voidaan yhdistää esimerkiksi eduskuntapuheisiin ja kansallisen audiovisuaalisen instituutin puheaineistoihin, jolloin koossa on suuri joukko monenlaista suomenkielistä puhetta.
Aineistot ja supertietokone samassa paikassa
Kajaanin Lumi-tekoälytehtaan tavoitteena on saada yritykset hyödyntämään tekoälyn mahdollisuudet.
Lumi-tekoälytehtaan vahvuus on, että tietoaineistot ja laskentateho ovat yhtä aikaa saatavilla, kertoo tekoälytehtaan palveluyksikön johtaja Aleksi Kallio.
– Siinä on tekoälytehtaan ydinajatus: samassa paikassa voidaan analysoida data, jalostaa sitä ja rakentaa siitä uusia tekoälymalleja, Kallio kertoo.
Tieteen tietotekniikan keskus CSC opettaa tekoälytehtaassa tutkijoille ja yrityksille tekoälyn käyttöä tarpeen mukaan hyvinkin syvällisesti, jotta palveluista saa kaiken tehon irti, sanoo Kallio.