Så kan AI-modeller bli säkrare att använda

AI-verktyg har blivit allt vanligare inom en mängd olika branscher och kan skapa stor nytta för människor och samhället i stort. Men användningen är inte utan risker och hittills finns mycket lite forskning som ger stöd i att förklara AI-modellers osäkerhet. 

– Forskningen inom området Explainable Artificial Intelligence (XAI) är väldigt intensiv, men att titta på hur kalibrering påverkar förklaringar har jag inte sett tidigare. Det är också väldigt lite gjort runt osäkerhetsuppskattning inom förklaringar, trots att det anses väldigt viktigt, säger Helena Löfström, universitetsadjunkt vid Institutionen för informationsteknologi vid Högskolan i Borås. Hon är en av doktoranderna i forskarskolan INSiDR, ett samarbete mellan Högskolan i Borås, Jönköping University och Högskolan i Skövde. I december försvarade Helena Löfström sin avhandling i informatik vid JIBS, Jönköping International Business School. 

I sitt arbete såg hon två viktiga aspekter: dels vikten av tillförlitliga metoder att utvärdera om förklaringarna faktiskt ger användare insikter som stärker korrekta beslut, dels vikten av att användare får information om hur osäker en prediktion är.

– Ta ChatGPT som exempel. När den först kom hade människor alldeles för stort förtroende till dess korrekthet. Då människor insåg att modellen kunde göra väldigt stora fel ibland, trots sin höga träffsäkerhet, blev det rätt stor upprördhet. Numera finns en rad där det står att den kan göra misstag och att du som användare behöver kontrollera svaren. Med andra ord blir vi upplysta om dess potentiella osäkerhet och att inte blint lita på dess utfall, säger Helena Löfström. 

Hennes avhandling Trustworthy explanations: Improved decision support through well-calibrated uncertainty quantification består av fem artiklar, där de första tre berör utvärdering av förklaringar. I de två senare studierna har Helena Löfström tillsammans med tre andra forskare utvecklat en helt ny förklaringsmetod.

I avhandlingen presenteras framför allt två större bidrag till kunskapen om AI:

  1. En ny förklaringsmetod som både kalibrerar den underliggande AI-modellen samt tar fram förklaringar med osäkerhetsuppskattning. Detta ger användare av AI möjligheter att lättare identifiera när de kan lita på modellens resultat – exempelvis i en situation då en läkare ska ställa diagnos på en patient – och när de inte bör göra det.
  2. Rekommendationer om hur man kan utvärdera kvaliteten på förklaringsmetoder så att resultat från olika utvärderingar kan jämföras med varandra.

Resultaten har redan fått ett visst genomslag. 

– Det mest spännande har nog varit när vår nya förklaringsmetod blev ett bibliotek i programmeringsspråket Python och när de första reaktionerna kom som berättade att metoden redan hjälpt en hel del i människors arbete. Framåt hoppas jag på en större diskussion om osäkerhet i AI-modeller och att vi skall sträva efter ett berättigat förtroende (appropriate trust) hos användare, säger Helena Löfström. 

Läs mer

Avhandlingen Trustworthy explanations: Improved decision support through well-calibrated uncertainty quantification
Läs mer om Helena Löfström på INSiDRs webbsida