Huvudmeny

2011-04-29 10:21

Historisk disputation på högskolan


Den 29/4 2011 är en historisk dag för Högskolan i Borås. Då är det dags för den allra första disputationen sedan högskolan har fått egna forskarexamensrättigheter. Det är Mikael Gunnarsson som presenterar sin avhandling om automatisk klassificering för digitala texter med hjälp av dataprogram och algoritmer.

Mikael GunnarssonI höstas kom beslutet från Högskoleverket om att Högskolan i Borås får utfärda doktorsexamen. Tidigare har doktorander i Borås disputerat via avtal med andra lärosäten, till exempel Göteborgs universitet, även om forskningen har bedrivits i Borås. Disputationen för Mikael Gunnarsson vid Institutionen Biblioteks- och informationsvetenskap/Bibliotekshögskolan är den allra första egna disputationen vid Högskolan i Borås. Det han har forskat om är automatisk genreklassificering av digitala texter.

– Det finns sedan tidigare ganska bra möjligheter att klassificera digitala texter utifrån deras innehåll, säger han. Men när vi söker allt mer information digitalt blir det mer och mer viktigt att veta vilken typ av dokument det är vi hittar – är det en vetenskaplig artikel, en teknisk rapport eller något från ett uppslagsverk?

Speciell programvara

Det är inte alltid helt lätt för oss läsare att avgöra vad det är för text vi har fått upp, och inte heller för dataprogrammet som ska lära sig att särskilja olika typer av texter. Man använder då en särskild sorts programvara som kallas maskininlärningsalgoritmer. I den matar man in olika texter och talar om vilken typ det är.

– Man matar också in kännetecken för olika typer av texter, som att en text med ovanligt många frågetecken kanske är en så kallad FAQ-sida (frequently asked questions) eller att en text med många rumsadverbial, alltså ord som ”ovanpå”, ”mellan” eller ”utifrån”, förmodligen är en beskrivande text och kanske inte en vetenskaplig artikel eller teknisk rapport, säger Mikael Gunnarsson. Det handlar också om hur lång texten är och hur långa meningarna i den är.

Klassificering utifrån genre

Det är just sådana här inmatningar han har gjort i sitt forskningsarbete. Han har också undersökt vilka egenskaper i en text som är effektiva att ta fasta på när man matar in dem till en algoritm och vad som är speciellt för vissa genrer.

En algoritm är de instruktioner man ger dataprogrammet för att lyckas lösa uppgiften, i det här fallet alltså vad dataprogrammet behöver veta för att kunna klassificera texterna utifrån genre.

– Det svåra är att vårt sätt att skriva inte är helt förutsägbart, utan man måste grunda det på antaganden. Det är till exempel väldigt knepigt att skilja en vetenskaplig artikel från en teknisk rapport, för de kan ha stora likheter sinsemellan och vara uppbyggda på ganska likartade sätt.

Bättre än slumpen

Efter att ha matat programmet med texter att träna på, där rätt klassifikation har angetts, och därefter fyllt på i algoritmerna om vad som är rätt har Mikael Gunnarsson testat hur klassificeringen fungerar på ickeklassificerad text.

– Resultatet, som också presenteras i avhandlingen, visar att dataprogrammet lyckas klassificera texternas genre bättre än slumpen, men det är långt ifrån tillfredsställande.

Mikael Gunnarsson har arbetat som lärare på Institutionen Biblioteks- och informationsvetenskap/Bibliotekshögskolan vid Högskolan i Borås sedan 1992 och tyckte det var hög tid att disputera nu. Eftersom han har undervisat i klassifikation och är intresserad av internet, passade avhandlingens ämnesval bra.

Vilken är nyttan med din forskning?

– Det är till exempel när det gäller källkritik, att man som läsare behöver vara medveten om vilken typ av text det är för att rätt kunna värdera den information som finns i texten. Om man utvecklar metoden vidare skulle det på sikt kunna bli så att man när man googlar får upp en symbol vid varje träff, som visar vilken genre det handlar om.

Margareta Lundberg Rodin är prefekt vid Institutionen Biblioteks- och informationsvetenskap/Bibliotekshögskolan och hon ser fram emot Mikael Gunnarssons disputation.

– Jag tycker det är roligt att just vår institution står för den första disputationen vid högskolan, säger hon. Högskolan i Borås fick ju examensrättigheter för flera områden, och just den här avhandlingen råkade bli den första. Nu ska vi göra disputationen lite extra festlig för att uppmärksamma detta.

Vilken betydelse har de egna examensrättigheterna för högskolan?

– För de enskilda doktoranderna blir det inte så stor skillnad, eftersom forskarutbildningen i stort sett är densamma, det är snarare vissa rutiner som förändras eftersom forskarutbildningen nu enbart genomförs i Borås. Däremot har det en stor strategisk betydelse för högskolan att få utfärda examen på alla nivåer, även forskarutbildning. Det ger ökad status åt högskolan och innebär att studenter i grundutbildningarna via doktorander tillförs aktuell forskning, vilket bidrar till att stärka undervisningens kvalitet.

Mikael Gunnarssons disputation äger rum fredagen den 29 april 2011, kl 13:00 i sal M506 på Högskolan i Borås.Avhandlingen heter ”Classification along Genre Dimensions: Exploring a Multidisciplinary Problem”.

Text och foto: Lena Fredriksson