En hybrid AI-arkitektur muliggjorde sikker søking, intern chat og direkte API-tilgang

Klient

Danmarks Statistik

Industri

Offentlig data / Statlig infrastruktur

Utfordring

Aktivering av AI på sensitive data uten at rådata forlater intern infrastruktur

Resultater

En hybrid AI-arkitektur muliggjort sikker semantisk søk, intern chat, og direkte API-tilgang for eksterne agenter

Omfang

AI-kapasiteter uten å eksponere sensitive data

Danmarks Statistik forvalter noe av Danmarks mest sensitive offentlige data. Det utelukket verktøy som ChatGPT og Gemini fra dag én.

Prosjektet startet som et internt forskningsprosjekt for å evaluere mulighetene for å bruke AI i stor skala hos DST. Organisasjonen hadde allerede sterke interne utviklingsmuligheter og investerte i intern infrastruktur, inkludert neste generasjons GPU-er, for å kjøre AI-arbeidsbelastninger internt. Utfordringen var ikke om AI kunne brukes, men hvordan man skulle bygge nyttige muligheter i stor skala uten å kompromittere sikkerheten eller stole fullt ut på kommersielle API-er.

Omfanget inkluderte:

Utforme en AI-arkitektur der rådata aldri forlot interne systemer
Muliggjør semantisk søk på store og vanskelige datasett
Bygge et internt chattverktøy for brukstilfeller med sensitive data
Utvikle et mer pålitelig grensesnitt for eksterne KI-agenter som samhandler med offentlige data
Trening av team innen observabilitet, verktøy, overholdelse og AI-arbeidsflyter

Konsept

Sikkerhet og kapasitet, uten kompromisser

Arkitekturen ble bygget rundt et enkelt prinsipp: rådata forblir internt, mens mening trygt kan bevege seg gjennom vektorer.

Interne modeller som kjører på Danmarks Statistiks egen maskinvare håndterer anonymisering og vektorisering. Eksterne modeller opererer kun på vektorer under kjøring, aldri på de underliggende rådataene. Dette skaper en hybridløsning som kombinerer sikkerheten til et lukket system med fleksibiliteten og ytelsen til eksterne modeller.

I tillegg til kjernearkitekturen bygde BCT et internt chatverktøy drevet av en stor åpen kildekode-modell, som gjør det mulig for ansatte å jobbe konversasjonelt med sensitive data i et sikkert miljø. BCT satte også opp en MCP-server rundt Danmarks Statistiks offentlige API, som lar eksterne KI-agenter spørre strukturerte data direkte i stedet for å skrape nettstedet på klientsiden.

Resultatet var ikke bare nye verktøy, men et mer skalerbart og bærekraftig AI-fundament.

Prosessen

BCT designet og implementerte det tekniske oppsettet, samtidig som de bidro til at organisasjonen bygde intern kompetanse rundt det.

Hybrid AI-arkitektur

Vi designet en arkitektur der interne modeller håndterer anonymisering og vektorisering på Danmarks Statistiks egen infrastruktur, mens eksterne modeller kun samhandler med vektorrepresentasjoner ved kjøretid. Dette sikret at rådata forble beskyttet, samtidig som det muliggjorde moderne AI-kapabiliteter.

Vektordatabaser og semantisk søk

Danmarks Statistiks datatabeller er store og komplekse. Vi integrerte dataene og bygde vektordatabaser oppå, noe som gjorde tidligere vanskelige å navigere innhold søkbart gjennom semantiske spørringer.

MCP-server for den offentlige APIen

For å redusere belastningen forårsaket av AI-agenter som skraper nettstedet, bygde vi en MCP-server rundt den eksisterende API-en. Dette ga agenter en strukturert, pålitelig måte å få direkte tilgang til offentlige data gjennom backend i stedet for gjennom klient-side opplevelsen.

Internt chat-verktøy

Vi bygde et sikkert internt chat-miljø drevet av en åpen kildekode-modell med 120 milliarder parametere som kjører på intern infrastruktur. Ansatte kunne jobbe med vektoriserte sensitive data i naturlig språk, med dynamiske visualiseringsfunksjoner under utvikling.

Trening og kompetanseheving

Sammen med det tekniske arbeidet kjørte vi et seks måneders opplæringsprogram som dekket AI-observabilitet, automatiseringsverktøy, IDE-integrasjon og strategi for samsvar – noe som hjalp teamet med å bygge varig intern kompetanse rundt AI.

Resultater

Resultatet ble et AI-oppsett som ikke tvang Danmarks Statistik til å velge mellom sikkerhet og kapasitet.

Sensitive data kan nå vektoriseres, søkes i og brukes i AI-drevne arbeidsflyter uten å forlate intern infrastruktur. Eksterne modeller kan levere ytelse i stor skala uten noen gang å berøre de rå dataene.

Dette gjorde det mulig å:

Aktiver sikker semantisk søking på tvers av komplekse interne data
Gi de ansatte et internt chatverktøy for brukstilfeller med sensitive data
Erstatt innsamling av nettsider av eksterne AI-agenter med et strukturert API-basert grensesnitt
Reduser ressursbelastningen på klientsiden gjennom direkte tilgang til backend
Bygg sterkere intern kapasitet gjennom opplæring og praktisk tilrettelegging

Mer bredt sett skapte prosjektet en modell for hvordan høyt regulerte organisasjoner kan jobbe med KI på en ansvarlig måte – uten å gi opp verken ytelse eller kontroll.

Trenger du AI-kapasiteter som gjeldende sikkerhetsmodell forhindrer?

Hvis organisasjonen din sitter på sensitive data og prøver å finne ut hva som faktisk er mulig innenfor dine begrensninger, bør vi snakke sammen.

Snakk med oss om ditt prosjekt.

Ta kontakt