03.2024 - 05.2024

Analyse av offentlig innovasjon

For Digitaliseringsdirektoratet

Python
Embeddingmodeller
LLM
Pandas

Adrian Fagerland
Prosjektleder
Andreas Edvardsen Lindeman
Daniel Faaravik Schiøtz

Digitaliseringsdirektoratet fikk tidlig i 2024 oppdrag fra DFD om å utvikle et kunnskapsgrunnlag om innovasjonspraksis i offentlig sektor. I stedet for å sette av flere månedsverk for å lese gjennom tusenvis av dokumenter, kontaktet Digdir oss for å høre hvordan AI kan brukes for å løse en slik problemstilling. Digdir syntes mulighetene virket spennende, og lyste ut en anbudskonkurranse som vi deretter vant.

Løsning

For å møte Digdirs behov, leverte vi en omfattende løsning som inkluderer flere komponenter for å analysere og presentere innsikt om innovasjon i offentlig sektor.

Første steg i prosessen var å samle relevante dokumenter fra den offentlige dokumentdatabasen Kudos. Som del av leveransen tilbød vi å utvikle algoritmer for scraping og parsing av PDFer, men fant ut at Kudos sitt eget API leverte plaintext av tilstrekkelig kvalitet. Vi valgte derfor å benytte dette APIt, og heller utvide andre deler av scopet.

En sentral del av løsningen vår var bruken av en state-of-the-art embeddingmodell for å analysere tekstinnholdet. Denne modellen konverterer tekstavsnitt til vektorer, som deretter sammenlignes med en referansetekst om innovasjon for å beregne en "innovasjonsfrekvens" for hvert avsnitt.

For å gi Digitaliseringsdirektoratet innsikt, utviklet vi flere metoder for å oppsummere og visualisere resultatene:

  1. Opplisting av avsnitt med høy innovasjonsfrekvens, inkludert fargekodede PDFer.
  1. Aggregering av innovasjonsfrekvenser på dokument-, virksomhets- og departementsnivå.
  1. Bruk av språkmodeller som GPT-3.5 eller GPT-4 for å generere oppsummeringer på ulike nivåer.
  1. Visualiseringer som diagrammer og grafer for å illustrere trender og mønstre i innovasjonsarbeidet.

Leveransen inkluderte et datasett med alle innovasjonsfrekvenser og -oppsummeringer, figurer med visualiseringer, en omfattende rapport og en fullstendig presentasjon av metode og funn. Hele kodebasen ble gjort tilgjengelig som open source på GitHub, sammen med grundig dokumentasjon for fremtidig bruk og videreutvikling.

Denne løsningen gir Digitaliseringsdirektoratet et kraftig verktøy for å analysere og forstå innovasjon i offentlig sektor, med mulighet for kontinuerlig oppdatering og tilpasning etter deres behov.

AI
Data Science
Systemutvikling