Riks – så gjorde vi undersökningen

Publicerad 2023-06-29

Aftonbladet har använt artificiell intelligens för att granska SD-ägda youtubekanalen Riks.

Här kan du läsa hur vi gjorde granskningen.

Aftonbladets datajournalist Johan Ekman.

Sedan lanseringen i november 2020 har Sverigedemokraternas Youtubekanal Riks publicerat över 5 000 klipp. 

  • Aftonbladet har använt mjukvaran Whisper för att transkribera alla youtubeklipp till engelsk text. 
  • För att kunna granska allt innehåll på kanalen har Aftonbladet sedan använt AI-tjänsten GPT-4. Det är samma teknik som används i den populära tjänsten ChatGPT, skapad av företaget OpenAI.
  • GPT-4 är en så kallad Large Language Model (LLM) – en avancerad AI som tränats på ofantliga mängder text. När man ställer en fråga till GPT så produceras ett svar som kan ses som en statistisk avvägning av vad för svar man som användare söker. Det är en språkmodell som brukar beskrivas som ”generell”. Den är byggd  för att kunna hantera språk och efterlikna mänsklig skrift så bra som möjligt och har därför mer ”generella” användningsområden inom allt som rör text. 

I vår granskning har vi gett GPT en engelsk transkribering av varje videoklipp som publicerats av Riks. Vi valde att översätta klippen till engelska då vi i tester såg att resultatet blev bättre än på svensk text. 

 

AI:n har sedan fått återge vilka huvudsakliga samtalsämnen som tas upp i varje klipp, samt återge tre beskrivningsord per samtalsämne. En fråga som ställs till GPT kallas ”prompt”, och vi har justerat denna så att svaret vi fått har exakt samma struktur för alla videoklippen. På så vis har vi kunnat sammanställa svaren från GPT till en datamängd vi sedan kunnat analysera.

Det finns risker med att använda GPT. Det allvarligaste är det som ibland lite slarvigt kallas att den ”hallucinerar”. När du ställer en fråga till ChatGPT så är svaret en sammanställning av ord som bäst överensstämmer statistiskt med din fråga. Texten den genererar är en sammanställning av vad du förmodligen är ute efter.

 

Om man till exempel frågar om vad som var vinsten för Volvo 2018 så kommer GPT ge ett svar som väl överensstämmer hur vinster för stora företag ofta beskrivs, inklusive vinstsummorna. Det finns med andra ord en risk att den svarar med påhittade siffror. Om den säger att vinsten var 48 miljarder kronor, så kan det vara en siffra som inte är rotad i vad som faktiskt var vinsten för Volvo 2018, utan snarare en siffra som passar väl med vilken vinst svenska storbolag oftast rapporterats ha haft.

Svar från GPT ser med andra ord oftast väldigt korrekta ut, men man får passa sig när den berättar fakta.

Det finns dock sätt att komma runt problemet. Det första är att helt enkelt inte fråga om lösa fakta utan att först ge GPT en kontext. Aftonbladet har därför gett den en transkribering från videoklippen och bett AI:n att analysera endast den bifogade texten, och inget annat. 

 

Det andra är att vara så tydlig som möjligt i prompten om vad som efterfrågas. GPT är dålig på att kontrollera fakta, men väldigt bra på att sammanfatta texter och lyfta vad som är centrala delar i en text. Till exempel är den väldigt bra på att sammanfatta texter i enskilda punkter (något som Aftonbladet i dag använder i våra AI-genererade nyhetssammanfattningar, se till exempel i toppen av den här artikeln).

Aftonbladet har kontrollerat förekomsten av hallucinering i GPT:s analys av videoklippen från Riks. Vi har valt ut 130 slumpmässigt utvalda videos, läst igenom transkriberingen av klippen för att se att översättningen till engelska är tillräckligt bra, och sedan bedömt om GPT:s val av samtalsämnen och dess beskrivningar är godtagbara. 

 

Om alla samtalsämnen är korrekta och beskrivningarna är ok, bra eller mycket bra så klassades GPT:s analys som ”Bra”. Om samtalsämnena är korrekta och varje ämnes beskrivningar har minst två beskrivningsord som är ok, bra eller mycket bra så klassades GPT:s svar som ”Ok”. Om något samtalsämne var fel eller påhittat, eller om två av tre beskrivningar för något av klippets samtalsämnen var felaktiga, klassades svaret som ”Dåligt”. 

I kontrollen klassades tre av 130 kontrollerade GPT-svar som dåliga. 

Aftonbladet har också gjort en så kallad sentimentsanalys på beskrivingarna av alla samtalsämnen. Syftet har varit att få inblick i hur olika samtalsämnen värderas: beskrivs vissa ämnen mer negativt än andra? För att kunna göra det har vi använt en särskild algoritm som bygger på maskininlärning. Om GPT är en ”generell” artificiell intelligens så kan det här ses som en ”specialicerad” sådan. 

 

Vi har använt modellen Twitter-roBERTa-base. Det är en statistisk språkmodell som tränats på 58 miljoner tweets från plattformen Twitter. När man ger modellen en text på engelska återger den en procentuell sannolikhet att texten är ett visst sentiment: ”positiv”, ”negativ” eller ”neutral”. Exempelvis är modellen 98,5 procent säker på att frasen ”I hate you” är negativ. 

Aftonbladet har matat alla samtalsämnens beskrivningar från GPT till twittermodellen. Det sentiment som fått störst procentuell sannolikhet för varje beskrivning är det som används i granskningen.

Sentimentanalysen dras med vissa problem. Till exempel klassas ”impopulär” och ”populär” främst som neutrala, och ”nationalist” klassas som negativt. Det är svårt att svara på varför, men sannolikt har exempelvis fraser där ”nationalist” används oftare klassats som negativa i det kontrolldata som modellen använder sig av. 

 

Ingen modell är perfekt, och efter att ha provat några alternativ landade vi ändå i att twittermodellen var den som gav bäst resultat.

Vi har också använt en annan algoritm för att hitta klipp på Riks där man uttrycker sig särskilt vulgärt eller rått. Även denna modell, kallad profanity check, är en maskininlärningsalgoritm som bygger på statistiska avväganden. Man ger den fraser på engelska och får som svar en procentsats på hur sannolikt det är att frasen innehåller någon form av vulgaritet. Algoritmen används ofta i exempelvis kommentarsfält för att flagga när någon uttrycker sig hatiskt eller rasistiskt.

 

Vi har sedan delat upp alla transkriberingar i meningar och matat meningarna till algoritmen. Sedan har vi sorterat efter hur vulgära fraserna är och sedan kontrollerat om det sägs överensstämmer med klippen på Riks youtubekanal.

Resultatet av granskningen kan du läsa här.