Huvudmeny
Johan Eklund

2016-04-26 08:00

Språkkunnigt system blir bättre på att hitta rätt i textmassor


Vi vet alla hur omöjligt det är att hitta och hänga med i allt som skrivs, även om smala ämnen, eftersom informationsmängderna är så ofantliga. Doktoranden Johan Eklund vid Högskolan i Borås har tränat datasystem för automatisk textklassifikation så att de bättre ska kunna hjälpa oss att hitta rätt i textmassorna.

Sedan tidigare finns det många olika system för att automatiskt klassificera texter i olika genrer. Johan Eklund har kommit fram till att systemen presterar bättre om de har kunskap om ordens betydelserelationer. Det har han upptäckt när han har jämfört hur väl olika system lyckas klassificera olika texter och vilka metoder som fungerar bäst.

– Vi vill att systemen på ett automatiserat sätt ska kunna känna igen vad dokument handlar om och skilja mellan olika typer av texter till exempel olika typer av nyheter i en dagstidning, eller vad vi nu är intresserade av att klassificera, säger han. Då används maskininlärning, det vill säga att vi tränar systemen genom att analysera olika texter, klassificera dem och mata in detta i systemet. Men vi kan också tillämpa metoder för att leta fram ordens betydelserelationer i digitala texter.

Fakta:
Avhandlingen With or without context: automatic text categorization using semantic kernels
Av doktoranden Johan Eklund
Vid Högskolan i Borås
Handledare: professor Sándor Darányi
Disputation: 15 april
Kontakt: johan.eklund@hb.se
033-435 5966

Betydelserelationer är hur olika ord hänger ihop. Ord som ofta förekommer i närheten av varandra brukar också ha något gemensamt när det gäller betydelsen. Ta till exempel orden ”frispark” och ”hörna”, som ofta förekommer i närheten av varandra och som har en betydelse som har med fotboll att göra. Sådant kan systemet detektera genom att statistiskt undersöka hur orden används tillsammans i texterna. Samförekomst av ord kan då fångas upp och läggas till en databas om ordens betydelser.

Testat tekniker på olika typer av texter

– Jag har använt olika tekniker för att bygga upp semantiska modeller, alltså modeller över ordens betydelserelationer. Och så har jag tillämpat modellerna i systemen för automatisk textklassifikation för att se om det kan förbättra systemets prestanda. Samtidigt har jag kunnat jämföra vilka modeller eller tekniker som fungerar bäst.

Teknikerna har tillämpats på texter av tre olika slag, som har hämtats från dokumentkollektioner för forskningsändamål. Johan Eklund har testat teknikerna på nyhetstexter, på medicinska vetenskapliga texter och på texter från kommunikationsplattformen Usenet.

– Resultatet var väldigt positivt. Det visar att språkmodeller gör att textklassifikationen blir bättre. Detta är speciellt påtagligt när systemet inte har fått så mycket ”träning”, där man analyserar manuellt och matar in klassificeringar, utan bara har tränat på ett mindre antal dokument. Då kompenseras bristen på träningsdokument av språkmodellerna. Det här resultatet är ett litet bidrag bland många i att effektivisera textkategorisering, något som behövs både inom forskning och andra områden för att snabbt kunna hitta relevant information.

Språkets geometri

En annan, teoretisk, undersökning som Johan Eklund har gjort handlar om att studera vad som egentligen menas med ”klass” och ”klassifikation” samt hur vi använder språk för att organisera böcker och andra dokument. En upptäckt han gjorde i detta arbete var att ordens betydelserelationer formellt kan beskrivas med begrepp som vi känner igen från geometrin.

– Vi använder, kanske utan att tänka på det, geometriska uttryck för att förklara hur olika begrepp är relaterade till varandra. Till exempel säger vi att begreppet ”kvantmekanik” ryms inuti begreppet ”fysik”. Och det visar sig att den här strukturen även avspeglas i det fysiska biblioteksrummet, där böcker om kvantmekanik ryms inuti avdelningen för fysik. Vi kan även säga att ett ämnesområde är begreppsligt nära ett annat ämnesområde, vilket vi också kan se i biblioteksrummet på så sätt att dessa områden placeras nära varandra. Det här var nog det mest fascinerande för mig i min forskning, och något som jag kände på mig intuitivt. Det var en euforisk känsla att kunna visa det!

Johan Eklund är universitetsadjunkt vid Akademin för bibliotek, informatik, pedagogik och IT. Han är mycket intresserad av matematik, språk, datavetenskap och klassifikation.

– När jag skulle börja forska letade jag efter ett område där jag skulle kunna odla intresset för alla de här ämnena och samtidigt försöka föra in klassifikationen i det moderna samhället.

Text och bild: Lena M. Fredriksson