Minns du Altavista? I internets barndom blev söktjÀnsten omsprungen av Google som verktyget alla anvÀnde för att ta reda pÄ saker. Nu mumlas det frÄn olika hörn av nÀtet att det kan vara Googles tur att bli förbipasserad. Nykomlingen heter Chat GPT och representerar nÄgot som Google riskerar att försvinna frÄn: framtiden.
Chat GPT, utvecklat av Elon Musk-grundade Open AI, Àr en sÄ kallad textrobot. Den kan generera text pÄ ett hittills icke uppnÄtt sÀtt bÄde vad gÀller innehÄll och anvÀndarvÀnlighet. Tekniken Àr varken superny eller felfri, och de bakomliggande algoritmerna fortsatt okÀnda, men resultatet Àr en tjÀnst som, nÄgot förenklat, kan ge information samtidigt som den för ett samtal med dig. Du behöver alltsÄ inte formulera din frÄga lika precist som Google i dagslÀget krÀver. Det rÀcker med "fiskrecept till middag" och du fÄr igÄng en dialog med tjÀnsten.
ââDen hĂ€r typen av sprĂ„kmodeller kommer att bli viktiga för samhĂ€llet. För oss datavetare handlar det om att vara snabbfotade, att vara beredd pĂ„ att omvĂ€rdera allt hela tiden, sĂ€ger Daniel Gillblad som ansvarar för forskning och strategi pĂ„ AI Sweden, Sveriges nationella center för artificiell intelligens.
Konversation med data
Det svenska initiativet heter GPT SW3 och verkar lite i utkanten av de stora futuristiska penseldragen men bygger pÄ liknande teknik som gjort Chat GPT till techvÀrldens senaste fenomen. GPT SW3 kan möjligen komma att revolutionera sÄvÀl skolvÀsendet som den offentliga vardagen i Sverige.
ââVi vill skapa en basmodell som Ă€r sĂ„ generell som möjligt och som fungerar för sĂ„ mĂ„nga domĂ€ner i ett svenskt sammanhang som möjligt, sĂ€ger Francisca Hoyer, strategisk programledare för sprĂ„kteknologi pĂ„ AI Sweden.
SÄvÀl Chat GPT som GPT SW3 bygger vidare pÄ en gammal sanning inom internet och tech: allt handlar om data. Data som i information. Har du information har du makt. Har du dessutom en begriplig produkt har du en guldgruva.
"Konversationen" i Chat GPT bygger pĂ„ att roboten, eller mer precist AI-sprĂ„kmodellen, vet hur "samtalet" mest troligt kommer fortsĂ€tta â baserat pĂ„ den textdata den anvĂ€nder som brĂ€nsle. Det Ă€r helt enkelt troligare att du frĂ„gar om priset pĂ„ lax och var du kan köpa den efter att ha stĂ€llt middagsfrĂ„gan Ă€n vad det Ă€r att du frĂ„gar om vad dvĂ€rgen i "Sagan om ringen" heter (Gimli).
ââChat GPT tĂ€nker inte sjĂ€lv. Vad Ă€r det den spottar ur sig? Det Ă€r statistik, statistik fördelning av text, sĂ€ger Francisca Hoyer.
Svensk instÀllning
"Robotkonkurrenter" till Chat GPT existerar redan i olika form, alltifrÄn Apples Siri till Googles egna chattrobot. Det som Àr unikt för Open AI:s lösning Àr att den klarar av att sammanfatta exempelvis forskningsrapporter samtidigt som den kan komponera en dikt om tvÄ elefanter som dansar rumba. Allt med hjÀlp av den massiva mÀngd data, text, som den trÀnats pÄ. Och den gör det pÄ ett sÀtt som Àr lÀttillgÀngligt för genomsnittsanvÀndaren.
GPT SW3 Àr inte lika kommersiell. I stÀllet Àr tanken att utveckla en svensk grundplÄt varifrÄn aktörer kan skapa egna lösningar. Oavsett om det blir en chattrobot i vÄrden, ett verktyg som kategoriserar mejl eller nÄgot som automatiskt skriver produktbeskrivningar, sportnotiser eller sammanfattning av hemtentan.
ââJag Ă€r jĂ€ttenyfiken pĂ„ vad forskare och samarbetspartners kommer vilja göra med modellen, sĂ€ger Francisca Hoyer.
Just att bjuda in till samarbete kring att utveckla GPT SW3 fÄr modellen att skilja sig frÄn Chat GPT.
ââOpen AI erbjuder just nu vĂ€ldigt fina grĂ€nssnitt som Ă€r gratis. Men det Ă€r inte sĂ„ att folk kan gĂ„ in i sjĂ€lva parametrarna i modellen och Ă€ndra och förstĂ„. Det kan vi göra hĂ€r. Vi erbjuder hela modellen. Möjligheterna för vidare utveckling och forskning Ă€r pĂ„ en annan skala nĂ€r vi gör sĂ„ hĂ€r, sĂ€ger Daniel Gillblad.
Urvalsprocess
Att bygga en sprÄkmodell pÄ svenska skiljer sig frÄn att göra det pÄ engelska Àven pÄ det mest grundlÀggande planet, tillgÄngen till data Àr mer begrÀnsad.
ââChat GPT klarar av svenska, men vi vet inte varifrĂ„n datan kommer. Om det Ă€r Google-sökningar eller Wikipedia eller nĂ„got annat. Vi jobbar pĂ„ ett annat sĂ€tt, transparent, sĂ€ger Francisca Hoyer.
Ett medvetet val frÄn AI Swedens sida Àr att inte enbart ha "högkvalitativa textkÀllor" nÀr det kommer till att mata modellen med data.
ââEn modell enbart trĂ€nad pĂ„ myndighetssvenska skulle inte vara en bra chattrobot exempelvis. Det Ă€r viktigt att det inte bara Ă€r finsvenska, utan ocksĂ„ med lite stavfel och liknande.
Bland datakÀllorna för GPT SW3 Äterfinns forumen Flashback, Familjeliv och delar av Reddit. Att innehÄllet dÀr kan vara bÄde rasistiskt och sexistiskt oroar inte.
ââVi Ă€r fullt medvetna om problematiken. Det visar hur viktigt det Ă€r att ha koll pĂ„ trĂ€ningsdatan. Det gĂ€ller alla datakĂ€llor, sĂ€ger Francisca Hoyer.
Daniel Gillblad fyller i:
ââEn viss typ av partiskhet kan spela roll i modeller som förutser genetiska sjukdomar exempelvis, men Ă€r inte relevant om vi pratar om arbetsintervjuer. Om modellen ska vara grunden för vĂ€ldigt mĂ„nga tillĂ€mpningar kan man inte plocka bort saker frĂ„n början.