Tilbage

Udarbejdelsen af et centralt ordregister skydes i gang

14. marts 2021

Vi kan nu glædeligt meddele, at udviklingen af et Central Ordregister for dansk (COR) sættes i gang. COR kan bidrage til at gøre løsninger, som involverer kunstig intelligens mere relevante ved at skabe bedre forudsætninger for, at computere kan lære at forstå den betydning mennesker tilskriver ord.

COR er en investering i fremtidens danske AI-udvikling, da den strukturerede betydningsinformation, tegner til at blive et af morgendagens mest afgørende aktiver inden for maskinlæring til AI-formål. Selvom at statistisk baserede neurale modeller spiller en alt mere dominerende rolle i den sprogteknologiske udvikling, så er det stadigvæk vigtigt for anvendelsesmulighederne af kunstig intelligens, at de leksikalske ressourcer udvikles og udvides. Leksikalske ressourcer er nemlig en vigtig komponent for, at maskiner kan lære at forstå den betydning, som vi mennesker tilknytter de ord vi bruger.

Derudover får danske virksomheder, via COR, en åben, koordineret og standardiseret ordressource for dansk almensprog, som alle andre sprogressourcer kan referere entydigt til, og hvor basisoplysninger om danske ord er beskrevet på en standardiseret og internationalt kompatibel måde. Danske virksomheder vil hermed lettere kunne sammenkoble og dermed genbruge deres egne eller andres mere specialiserede sprogressourcer (både eksisterende og fremtidige) på tværs af systemer og sprog. Således kan COR formindske nogle af de ressourcemæssige omkostninger, som der er forbundet med udviklingen af relevante løsninger med kunstig intelligens, der forstår dansk.

Projektet udarbejdes i et samarbejde mellem Dansk Sprognævn, Det Danske Sprog- og Litteraturselskab, Center for Sprogteknologi på Københavns Universitet og Digitaliseringsstyrelsen og vil forløbe fra marts 2021 til december 2023. I projektets første del vil COR-K (kernen) blive udarbejdet. Hermed vil den centrale del af det danske ordforråd samt bøjningsformer tildeles entydige indekser og morfologiske oplysninger, og der vil blive udarbejdet en passende datamodel. Det centrale her er indekseringen af ordene, som netop vil gøre det væsentligt lettere at koble forskellige typer af leksikalske ressourcer til en given betydning. I samme fase vil komponenten COR-F blive tilføjet, som indeholder de typiske fejlstavninger af ordene. I de senere dele vil der blive koblet en semantisk og en udvidet semantisk komponent (COR-S og COR-SX), og det er hensigten, at der løbende kan kobles nye komponenter på.

Hvis du gerne vil holde dig opdateret i takt med, at projektet løber af stablen, så gå ind på Center for Sprogteknologi ved Københavns Universitets projektside for COR. Eller hold øje med Det Danske Sprog- og Litteraturselskabs projektoversigt, hvor der ligeledes vil blive oprettet en projektside, hvorfra i løbende kan få informationer om projektet. Derudover, har Dansk Sprognævn lavet en interaktiv demonstration af COR og vil løbende komme med informationer på deres hjemmeside, som du finder her: Dansk Sprognævn. Her på portalen vil vi også løbende udgive nyheder i takt med, at COR-projektet skrider frem.

Hvis du har yderligere spørgsmål angående COR-projektet så tag kontakt til os på info@sprogteknologi.dk eller kontakt de relvante kontaktpersoner på projektet.

Professor Bolette Sandford Pedersen, Center for Sprogteknologi, Københavns Universitet, bspedersen@hum.ku.dk

Seniorredaktør Sanni Nimb, Det Danske Sprog- og Litteraturselskab, sn@dsl.dk

Seniorforsker Peter Juel Henrichsen, Dansk Sprognævn, pjh@dsn.dk

Flere nyheder

Ny udgivelse af danske kommunale tekstdata til træning af sprogmodeller
25. februar 2026

Tekstdata fra fem danske kommuners byråds- og miljø- og teknikudvalgsmøder er netop blevet offentliggjort på sprogteknologi.dk. I forbindelse med et pilotprojekt...
More

Første udgivelse af data til træning af danske sprogmodeller
13. januar 2026

Digitaliseringsstyrelsen, Rigsarkivet og Det Kgl. Bibliotek har netop frigivet den første mængde af tekstdata, som kan anvendes til træning af danske sprogmodeller. Der...
More

Det har Sprogteknologi.dk lavet i 2025!
18. december 2025

År 2025 går på hæld, og det samme gør det syvende år, hvor Digitaliseringsstyrelsen har arbejdet med det nationale initiativ sprogteknologi.dk. Vi vil...
More

Workshop om behovet for data til sprogteknologiske løsninger
11. december 2025

Efterspørgslen på data til sprogteknologiske løsninger handler ikke alene om adgangen til data, men også om de rammer og forudsætninger, som gør, at...
More

Sprogteknologisk Konference 2025 er afholdt!
20. november 2025

Fredag den 14. november samlede Digitaliseringsstyrelsen og Center for Sprogteknologi for femte år i træk forskere, praktikere, myndigheder og andre fagfolk til årets...
More