Impact: Tekstlaboratoriet og de grønne strekene i Word

Hver gang Microsoft Word gjør oss oppmerksomme på en sannsynlig grammatisk feil i det vi har skrevet, er det en frukt av mange års grunnforskning ved ILNs tekstlaboratorium, ledet av Janne Bondi Johannessen.

Professor Janne Bondi Johannessen (foto: Multiling)

De grønne strekene i Word er historien om et impact som vi alle har sett, men nok ikke kjent historien bak. 

Mellom oppdragsforskning og grunnforskning

Det var et finsk firma som var mellomledd mellom Microsoft og Tekstlaboratoriets professor Janne Bondi Johannessen og senioringeniør ved laboratoriet Kristin Hagen. Det var altså et oppdrag de fikk utenfra, som de utførte. Men oppdragsforskning var det likevel slett ikke, understreker de to. Forskningen var nemlig allerede gjort. – Det eneste vi trengte å gjøre, var å operasjonalisere den på en måte som kunne brukes i akkurat denne sammenhengen, sier de. Det tok noen måneder. Forskningen derimot har gått over mange år.

Historien om en grammatisk tagger

Det hele begynte med at Johannessen og andre for hele 20 år startet et NFR-prosjekt, det såkalte taggerprosjektet. En tagger er et avansert digitalt analyseverktøy. Målet med prosjektet var ubeskjedent: å utvikle et automatisk verktøy som både kunne identifisere ord, klassifisere dem og analysere dem i forhold til hverandre, i setninger. Resultatet er nå, etter flere oppdateringer, kjent som Oslo-Bergen-taggeren (OBT).

Det er ikke et lite stykke språkteknologisk innovasjon det er snakk om. Taggeren består av tre hovedmoduler: en såkalt preprosessor med sammensetningsanalysator og multitagger, en grammatikk-modul for såkalt morfologisk og syntaktisk disambiguering og til slutt en statistisk modul som fjerner siste rest av det denne fagligheten kaller morfologisk flertydighet. Taggeren er den beste i sitt slag og har en treffsikkerhet på 96,5 %, helt uten menneskelig hjelp. 

..og en norsk ordbank

Et biprodukt av taggerprosjektet er Norsk ordbank. Ordbanken er en såkalt fullformsordbok, et leksikon med alle tilgjengelige bøyningsformer av alle norske ord. I dag er det en videreutviklet utgave av Ordbanken som ligger til grunn for blant annet bøyingsinformasjonen i Bokmåls- og Nynorskordboka på nett, og det elektroniske scrabblespillet Wordfeud. Det er samlingsenhetene på ILN som har arbeidet mest med Ordbanken.

Den siste mila

Det er altså den grammatiske taggeren som utgjør grunnlaget for de grønne strekene i Word. Men et viktig stykke arbeid sto likevel igjen da de takket ja til bestillingen fra Microsoft. Den grammatiske taggeren forutsetter i utgangspunktet korrekt språk, mens en grammatikkontroll må forstå feilaktig språkbruk, og så foreslå rettinger. Da måtte man utlede og konstruere tillegg til de reglene som lå til grunn for taggerens analyser, samt formulere de forklaringene den enkelte Word-bruker får når en feil er funnet. – Selv om taggeren fra før gjorde det meste riktig, var dette et sannhetens øyeblikk, understreker Kristin Hagen, som sammen med Pia Lane (nå professor ved SFF-senteret MultiLing) jobbet mest intenst med akkurat denne fasen. – Det er veldig vanskelig, understreker hun, å lage en slik grammatikkontroll.  Desto morsommere når man får det til. For «når du får en regel til å virke er det det deiligste i verden», ler hun. Og de fikk det til. På en brøkdels sekund sjekker det ferdige verktøyet både samsvarsbøyning, verbformer, ordstilling, plassering av adverb, rett kasus og enda mye mere til, selv om langt fra alle feil blir oppdaget, understreker hun.

En impact-bukett

De grønne strekene i Microsoft Word er blant de tydeligste sporene som Tekstlaboratoriet har etterlatt seg utenfor akademia. Men den akademiske impacten har hele tiden vært hovedmålet og den er svært tydelig, i et høyt antall vitenskapelige publikasjoner gjennom en årrekke og en tagger med åpen lisens.  Tekstlaboratoriets mange norske korpus er tagget med OBT-taggeren, og har i skrivende stund om lag 3000 registrerte forskere og studenter som brukere rundt om i verden. Et korpus er en søkbar digitalisert samling av skriftlig eller muntlig tekst med informasjon om ordklasser. Og laboratoriet er kanskje bare så vidt i gang, tenker Johannessen og Hagen. De har videreutviklet taggeren for norsk talemål, og den er en nå en av bærebjelkene for de nyeste storsatsingene ved Tekstlaboratoriet, nemlig ulike talespråkskorpus for oslodialekt, samt norske, nordiske og samiske dialekter før og nå. For øyeblikket er de midt i det store, nasjonale, forskningsrådsfinansierte infrastrukturprosjektet LIA, ledet av Johannessen.

Talespråkskorpusene gjør det mulig for dem selv og andre forskere å bringe forskningen på norsk og andre språk et uant antall steg videre i jakten på målet om mer kunnskap. Det enorme materialet man nå har til disposisjon, det har nemlig ingen hatt før.   

Av Arve T. Thorsen
Publisert 7. juni 2017 14:57 - Sist endret 7. juni 2017 15:25