Uventet driftsavbrudd på IT-tjenester ved UiO

Tirsdag 21. juni var det mange ved UiO som merket at det i en periode var noe galt med IT-tjenestene. Nettsidene virket ikke, telefonene virket ikke og e-post hadde problemer.

Hva var det egentlig som skjedde?

Det korte svaret er: LDAP gikk ned.

For de fleste betyr ikke det så mye, så hvis du vil vite litt mer om hvorfor du ikke fikk sendt e-post under driftsavbruddet, kan du lese mer om det her:

Her er langversjonen

De aller fleste IT-systemer genererer logger som inneholder informasjon om hva de gjør. Slike logger er svært viktige for å kontrollere at systemene fungerer slik de skal, for å avdekke mulige feil før de oppstår, for å feilsøke hvis det oppstår feil, for å undersøke om det har vært angrep mot systemene – og en rekke andre ting. Det er både mange IT-systemer og mange IT-brukere på UiO, så systemene her genererer svært store mengder loggdata. 

Ny logghåndtering

For å kunne analysere loggene mer effektivt er UiO nå i ferd med å samle de aller fleste loggene i ett system. Da er det enklere å se avvik i enkeltsystemer, sammenhenger mellom systemene og eventuelle avvik der flere systemer er avhengige av hverandre. På tirsdag ble dette nye loggsystemet slått på for Linux-serverene – og de har UiO en god del av. 

Når Linux-serverene skulle skrive loggene sine til det nye systemet ble det rett og slett for mye. Dataene møtte en flaskehals og stoppet opp. LDAP-serverene, som er Linux-servere, klarte ikke å sende sine loggoppføringer til det nye logghåndteringssystemet og stoppet opp. Det gjorde også noen andre tjenester, uten at det ble veldig synlig, men det var stansen i LDAP som gjorde at du som bruker for eksempel ikke kunne vise sider fra UiOs nettsted. 

LDAP (Lightweight Directory Access Protocol) er en protokoll (et språk) som brukes til oppslag i en LDAP-katalog. Ved UiO brukes LDAP som oppslagsverk for en mengde tjenester, som har tusenvis av brukere hver dag – noe som fører til store mengder oppslag og svært store mengder loggdata. LDAP benyttes av en rekke systemer og det får dermed en rekke svært synlige ringvirkninger om LDAP går ned. Systemer som ble berørt var Vortex, radius, mail, telefon og mer.

Problemet er løst

Mange på USIT jobbet intenst med å finne ut hva det var som skjedde og så for å få systemene opp igjen. De arbeider nå med å fjerne flaskehalsen som stoppet loggdataene og ser på alternative måter å få Linux-serverene inn i det nye logghåndteringssystemet på.

Publisert 23. juni 2016 15:03 - Sist endret 23. juni 2016 15:04