Kommunal Semantisk Grundmodel nr. 1 er en videretræning af det Norske nationalbiblioteks AI laboratories (NbAiLab) BERT-Base sprogmodel, og er trænet på 2,672,566 unikke sætninger som er skrabet og filtreret fra 94 kommunale hjemmesider.
Sprogmodellen er af typen Masked Language Model (MLM), på dansk en maskeret sprogmodel. Sprogmodellen er trænet til at prædiktere ord-kandidater til ét eller flere maskerede ord i en given sekvens af ord. Ved en succesfuld træning med denne metode opnår sprogmodellen såvel sprog som semantisk forståelse, og kan derfor anvendes til f.eks. semantisk søgning ved at producere embeddings (matematiske repræsentationer af ordsekvenser; f.eks. en sætning). Embeddings kan anvendes til at fremsøge synonymer til bestemte ord i en sekvens eller til at vurdere den sproglige sammenhæng af en given sætning.
Modellen kan finjusteres på nye data og den kan videretrænes til at løse bestemte opgavetyper som f.eks. identifikation af navngivne entiteter, tekstanalyse i mange former, sentiment klassifikation, chatbot funktionalitet, sentiment-scoring m.v.
Modellen er udarbejdet i forbindelse med AI-aktindsigt, som er et samarbejde mellem Sønderborg Kommune, Vejen Kommune, Fredensborg Kommune og virksomheden Aktio.
Du finder BERT-base modellen her