Viimeisen vuoden aikana on ollut vaikea välttyä generatiivisen tekoälyn tuotoksilta. Olet saattanut nähdä LinkedIn-postauksen, jossa OpenAI:n tekoälypohjaiselta ChatGPT:ltä on kysytty varmoja vinkkejä palkankorotuksen saamiseen. Kenties olet törmännyt chattibottiin tarvitessasi apua verkkoajanvarauksessa. Olet jopa saattanut naureskella DALL-E:n luomille kuville, jossa klassikkotaideteoksiin on digitaalisesti lisätty tuttujen julkkisten naamoja.
Generatiivinen tekoäly kehittyy hurjaa vauhtia, ja myös kieliteknologia hyötyy kehitysharppauksista. Kieliteknologian näkökulmasta tärkeimmässä roolissa ovat suuret kielimallit (Large Language Models, LLM).
Suuret kielimallit tarvitsevat suuren määrän dataa
Kielen tuottamiseen ja käsittelemiseen luotuja generatiivisia tekoälyratkaisuja kutsutaan suuriksi kielimalleiksi. Kielimallit ovat tilastollisia malleja, jotka laskevat todennäköisyyksiä sanojen tai sanojen osien esiintymiselle. Yksinkertaisimmat kielimallit laskevat sanan esiintymisen todennäköisyyden pelkästään laskemalla, montako kertaa se esiintyy annetussa tekstiaineistossa, ottamatta huomioon muita ympärillä olevia sanoja ja niiden merkityksiä.
Suuret kielimallit taas ovat pitkälle kehitettyjä neuroverkkopohjaisia kielimalleja, joita nimensäkin mukaisesti koulutetaan suurella määrällä dataa. Siinä missä aiempien neuroverkkokonekäänninten kielimallien koulutus vaatii usein jopa satojen miljoonien muuttujien kokoisen aineiston, suurten kielimallien kohdalla puhutaan jo miljardeista muuttujista.
Nykyiset neuroverkkopohjaiset kielimallit, joihin myös suuret kielimallit kuuluvat, ovat useimmiten muuttajiin (transformers) nojautuvia malleja. Muuttajat ovat neuroverkkoarkkitehtuureja, jotka koostuvat monista päällekkäisistä kerroksista. Aikaisemmat koneoppimisen mallit keskittyivät koulutusdatassaan yksittäisiin sanoihin, kun taas muuttajat pystyvät käsittelemään ja kiinnittämään huomiota lauseen tai pidemmän tekstisisällön sisällä oleviin sanoihin yhtä aikaa ja analysoimaan muun muassa lauseen sisäisiä suhteita laajemmalla skaalalla.
Suuret kielimallit oppivat isoista tekstiaineistoista, mitkä sanat esiintyvät missäkin ympäristössä ja mitkä seuraavat usein toisiaan. Tämän avulla suuret kielimallit voivat ennustaa, mitä sanoja ja lauseita tietynlaiseen kysymykseen sopivassa vastauksessa olisi, miten runo, jolle on annettu alku, voisi jatkua tai miten tietty asia sanottaisiin toisella kielellä juuri tässä kontekstissa.
Yhden koon ratkaisu ei sovi kaikkeen
Koska suurten kielimallien kouluttamiseen tarvittava datamäärä on valtava, on kouluttamisessa väistämättä käytettävä paljon geneeristä sisältöä. Suuria kielimalleja voidaan myös kustomoida eli personoida, jolloin ne pystyvät paremmin vastaamaan erilaisiin tehtäviin ja tarpeisiin. Tämä voidaan tehdä lisäämällä rajatumman aihealueen lisäkoulutusdataa ja muokkaamalla mallin painotuksia. Tärkeää on myös valita sopiva kustomointistrategia, kuten käyttövalmiin mallin rakentaminen tai käytössä oppiminen kehotesuunnittelun (prompt engineering) avulla.
Erityisesti, kun suuria kielimalleja käytetään kääntämiseen, on hyödyllistä, että kielimalli personoidaan laadukkailla toisiaan täysin vastaavilla kaksikielisillä materiaaleilla. On erityisen hyvä, jos tekstit ovat mahdollisimman samaa aihepiiriä kuin uudet käännettävät tekstit. Tähän tarkoitukseen kielimallien kouluttaminen olemassa olevilla käännösmuisteilla on hyvä idea, sillä käännösmuisteihin tallennetaan asiakkaan kaikki käännökset kielipareittain, joten tekstit ovat aina kaksikielisiä ja toisiaan vastaavia sekä noudattavat yrityksen toivottua tyyliä ja terminologiaa.
Näin kielimalli oppii, millaisia juuri kyseisen asiakkaan tekstit ovat, ja osaa matkia niiden tyyliä paremmin jatkossa. Tämä parantaa muun muassa suurten kielimallien tuottaman konekäännöksen sopivuutta yrityksen tyyliin. Tämä vuorostaan nopeuttaa käännösten tekemistä, sillä laadukkaampi ja asiakkaan tarpeisiin kustomoitu konekäännös vähentää mahdolliseen tarvittavaan jälkieditointiin kuuluvaa aikaa.
Tekoälyn kääntöpuolet
Vaikka suurten kielimallien jatkuva oppiminen ja adaptiivisuus ovat monessa mielessä hyviä asioita, on niissä myös kääntöpuolensa. Yleisessä käytössä olevat kielimallipohjaiset ratkaisut oppivat toimintojensa aikana, joten niitä voi myös tarkoituksella johtaa harhaan ja niille voi opettaa valheellista tietoa. Mikäli kielimallille opettaa tarpeeksi monta kertaa hauen olevankin lintu kalan sijaan, kielimalli alkaa uskomaan näin. Suuret kielimallit kärsivät myös niin sanotuista hallusinaatioista, joista voit lukea artikkelistamme konekääntimien arkipäivän ohjenuorista.
Keksittyjen faktojen lisäksi riskinä isolla datamäärällä koulutetuilla kielimalleilla on luottamuksellisen tiedon päätyminen väärään paikkaan. Yleisessä käytössä olevat suuret kielimallit ovat kaikille avoimia, eikä niitä käyttäessä voi olla varma, päätyykö oma data jotain kautta muiden käyttöön. Siksi on tärkeää valita luotettava kumppani, jolle tietoturva-asiat ovat prioriteetti.
Kun suuria kielimalleja koulutetaan käännösmuisteilla, on huolehdittava tietoturvasta sekä varmistettava, että asiakaskohtainen data on käytössä vain kunkin asiakkaan omalla mallilla. Tällöin vältetään tilanne, jossa kielimalli tuottaisi käännökseen toisen asiakkaan luottamuksellista tietoa. Meillä asiakaskohtainen kielimalli voidaan rakentaa suoraan osaksi LanguageWiren erittäin tietoturvallista ekosysteemiä. Lue lisää LanguageWiren suurten kielimallien tietoturvaa koskevista näkemyksistä täältä.
Suuret kielimallit osana tulevaisuutta
Suurten kielimallien kouluttaminen käännöstarpeisiin on suuri harppaus eteenpäin, sillä ne voivat tarjota entistä tarkempia ja luontevampia käännöksiä useille kielille. Nämä mallit mahdollistavat valmiiden käännösten tuottamisen nopeasti ottaen samalla huomioon toivotun tyylin ja terminologian. Tulevaisuudessa tällainen kehitys voi murtaa kielimuureja ja edistää vuorovaikutusta ihmisten välillä eri puolilla maailmaa vahvistamalla ymmärrystä ja yhteistyötä globaalissa mittakaavassa.