Snart hör du din röst säga ord du aldrig sagt

Talet om artificiell ”intelligens” leder fel – låt oss kalla det syntetisk media där råvaran är mänsklig kultur

”Du kan behöva lära dig att skriva, prata och dansa på sätt som löpande bekräftar det faktum som du redan idag har vant dig vid att bekräfta i en kryssruta: ’jag är inte en robot’”, skriver Rasmus Fleischer.

Härom veckan publicerades ett öppet brev undertecknat av fjorton män (däribland världens näst rikaste man) och noll kvinnor. Å hela mänsklighetens vägnar varnade de för att ickemänskliga intelligenser kan vara på väg att överlista oss och ersätta oss. Brevet föreslog därför ett halvårs global paus i den pågående kapprustningen mot allt kraftfullare AI-system.

Mitt förslag är mer anspråkslöst. Låt oss i ett halvår avstå från att alls prata om ”artificiell intelligens”. Inte för att vifta bort några risker. Tvärtom: för att få ett bättre grepp om dem. Då är det tveksamt hur behjälpta vi är av den notoriskt vaga metaforen ”intelligens”.

Ingen kan säga riktigt vad AI är. Låt oss istället tala om syntetisk media. Samlingsbegreppet omfattar de system för att generera text och bild som har blivit allmänt tillgängliga under det senaste året, liksom motsvarigheterna för ljud och video där vi snart lär få se nya genombrott. Här blir det lätt att föreställa sig kusliga scenarion. Tillåt mig ett försök:

Innan 2020-talet har tagit slut kommer du ha fått höra din egen röst uttala ord som aldrig har passerat i dina läppar. Röstsyntesen kommer även ha ringt upp dina släktingar och bett om ett lån, i ett tonfall som verkligen lät som ditt, fastän du bara var ett av miljoner offer för samma cyberkriminella gruppering. Varenda offentlig person kommer att figurera i fejkade videor som med groteska eller subtila medel syftar till att smutskasta. Snart kommer vi alla ha blivit så avtrubbade att verkliga videoavslöjanden förlorat sin dokumentära kraft. Inget går ändå att lita på i flodvågen av syntetisk media.

 

Samma AI-företag som släppt lös denna flodvåg kommer även att sälja livbåtarna: mjukvarufilter som någorlunda träffsäkert kan identifiera syntetiska texter, bilder och ljud. Redan idag vore e-post ett obrukbart medium om det inte vore för att varje inkorg skyddas av ett spamfilter. I en allt mer syntetisk medievärld måste liknande filter installeras överallt där det ska återstå utrymmen för mellanmänsklig kommunikation.

Distributörer av litteratur eller musik kommer att finna sin nya roll som garanter för mänskligt innehåll. Vad de då kommer att sälja blir i praktiken just en filtertjänst. Vi får en ny slags åtskillnad mellan hög- och lågkultur, där enda kriteriet handlar om att berättelsen, musiken eller bilden ska ha en mänsklig avsändare.

I den fortlöpande kapprustningen öppnar varje filterglapp en ny attackvektor för de aktörer som vill vrida ett narrativ eller sälja nån skit

Filtrena blir dock aldrig perfekta. Vissa mänskliga kulturuttryck kommer fastna. Du kan behöva lära dig att skriva, prata och dansa på sätt som löpande bekräftar det faktum som du redan idag har vant dig vid att bekräfta i en kryssruta: ”jag är inte en robot”. I den fortlöpande kapprustningen öppnar varje filterglapp en ny attackvektor för de aktörer som vill vrida ett narrativ eller sälja nån skit. Så även om tekniken tar bort arbetstillfällen, skapas många nya. Tyvärr blir det mest skitjobb: kontrollfunktioner för att hantera den universella osäkerheten i fråga om vem som är människa och vad som är verkligt.

 

Nu lät jag fantasin fara iväg en bit. Min simpla poäng är att scenarion av detta slag alls inte är science fiction. Allt bygger på tendenser som redan nu kan ses i anslutning till plattformsföretagen – tendenser som kan tänkas eskalera genom de allt mer sofistikerade verktygen för att skapa syntetisk media.

Observera: inget i detta scenario förutsätter någon form av maskinintelligens. Systemen behöver inte bli självförbättrande eller autonoma. De behöver bara bli bra på att härma mänskliga uttryck, vilket är vad AI-företagen nu tävlar i. Alla utgår från samma modell för storskalig språkanalys som ett gäng Googleforskare publicerade år 2017. Sedan dess har kapplöpningen mest handlat om att samla på sig riktigt mycket råvaror och maskinkraft. Inte så mycket innovation, desto mer kapitalkoncentration.

Råvaran utgörs av mänsklig kultur, fritt tillgänglig: ord, men även bild och ljud. Petabyte efter petabyte som ska samlas in, lagras och därpå genomlysas av sannolikhetsberäkningar där antalet parametrar nu går från miljarder till biljoner. Detta är innebörden av att ”träna en AI” och beräkningstyngden slukar kopiösa mängder el. Vad tror du förresten Facebook gör i sina serverhallar i Luleå? Så förslaget om ett halvårs paus för all AI-träning borde kanske övervägas – som ett alternativ till statliga elprisstöd.

 

Att chattboten GPT-4 imponerar är för att den tränats på enorma mängder data. Hela Wikipedia, såklart, liksom all öppen programkod på Github. Troligtvis alla artiklar i Aftonbladet och varje inlägg jag postat på min blogg. Webben har dammsugits på träningsdata, men AI-företagen har också lagt stora resurser för att manuellt sålla bort olämpligt innehåll: porr, hat, spam och nonsens.

Mänsklig kultur ses i AI-industrin redan som en bristvara

Nu uttrycks oro för en stundande brist på ”högkvalitativa” ord. En fortsatt kapplöpning kommer tvinga språkmodellerna att träna sig på ”lågkvalitativa” ord, skördade på Twitter eller Youtube. Med tiden hotar rundgång i systemet när allt mer av den inhämtade träningsdatan redan är syntetisk. Mänsklig kultur ses i AI-industrin redan som en bristvara.

För kvalitetens skull uppges GPT-4 även ha tränats på ”en samling böcker”. Jag utgår från att detta syftar på piratbibliotek som Sci-Hub och Anna's Archive. Kopiösa mängder av facklitteratur och forskningsartiklar som ett AI-företag lätt kan tanka hem utan att det syns utifrån. Situationen kan erinra om hur Spotify, fram till sin officiella lansering hösten 2008, i praktiken var en pirattjänst då man utan tillstånd distribuerade musik som bevisligen hämtats från The Pirate Bay.

 

För AI-företagen räcker det däremot att använda piratkopiorna internt, som träningsdata. Jag förstår Författarförbundets indignation över ChatGPT: ”när våra verk används ska vi få betalt” (DN 6/4). Men det är lönlöst att kräva av politikerna att trolla fram betalningen på upphovsrättslig väg. Dels eftersom snart sagt alla nätanvändare, inte bara författare, har bidragit med träningsdata. Dels eftersom upphovsrätten inte skyddar idéer eller fakta, utan bara dess språkdräkt. Vad ChatGPT spottar ur sig är ett slags statistiskt genomsnittsspråk som inte kan knytas till någon enskild upphovsperson.

En annan etisk fråga är mer brännande. Varför måste dessa matematiska språkmodeller optimeras för att härma människor? Detta är bara en av flera tänkbara riktningar för teknikens utveckling.

Det är finns inget ödesbestämt i att ChatGPT ska tala i första person. Tvärtom har företag som OpenAI aktivt beslutat sig för att låta systemen fejka ett ”jag” som avsändare. Att detta ”jag” låter sig användas i manipulativa syften bekommer dem inte. Allt de bryr sig om är att suggerera fram en aura av intelligens.

 

Rasmus Fleischer är skribent och forskare i ekonomisk historia.

Kultur

Prenumerera på Kulturens nyhetsbrev

Aftonbladets kulturchef Karin Petterson guidar till veckans viktigaste kulturhändelser och mest intressanta idédebatt.