Det Centrale Ordregister

Introduktion

Det Centrale Ordregister (COR) er en række sammenhængende udgivelser, der gør det muligt at sammenkoble viden om danske ord. På denne side findes et overblik over COR, som skal vise vej til de mange elementer, som COR indeholder, så du nemt og hurtigt kan finde det relevante materiale for dig.

Baggrund for Det Centrale Ordregister

COR er et samarbejdsprojekt mellem Dansk Sprognævn, Det Danske Sprog- og litteraturselskab, Center for Sprogteknologi ved Københavns Universitet og Digitaliseringsstyrelsen. Målsætningen med COR er at gøre alle basisoplysninger om danske ord tilgængelige på en standardiseret og international kompatibel måde.

Det Centrale Ordregister understøtter dansk sprogteknologi ved at:

forlænge levetiden af danske korpusser
støtte effektiv deling af danske sprogressourcer
give åben adgang til strukturerede betydningsinformationer om danske ord
forøge sprogforståelsen i dansk sprogteknologi og dermed kvaliteten af dansksproget kunstig intelligens.
hurtigere og billigere opstart for nye virksomheder i sprogteknologi

COR vil give offentlige myndigheder, virksomheder og institutioner i Danmark mulighed for at udvikle sprogcentrerede AI-systemer, der tager afsæt i anerkendt, lokalt forankret viden om dansk sprog og kultur, herunder danske juridiske og forvaltningsmæssige traditioner, som dermed bedre matcher det samfund, de skal interagere med.

Ideen til COR stammer fra de anbefalinger, som Sprogteknologiudvalget, nedsat af Kulturministeriet, kom frem til. Én af anbefalingerne var, at der skulle oprettes en avanceret dansk orddatabase. Med COR etableres en avanceret dansk orddatabase, som er offentlig tilgængelig og kan anvendes af alle. I COR får danske ord et unikt COR id-nummer. Via det unikke id-nummer kan ord, på en entydig måde, identificeres i såvel tekstkorpora som ordbøger, på tværs af tekniske specifikationer, praktiske formål og licensmure. Derved vil man lettere kunne sammenkoble og dermed genbruge egne eller andres specialiserede sprogressourcer (både eksisterende og fremtidige) på tværs af systemer og sprog.

Sprogteknologiudvalgets analyse, konklusioner og anbefalinger er udgivet i rapporten "Dansk sprogteknologi i verdensklasse".

Licensvilkår i COR: Alle udgivelser i COR Indekset er udgivet under en CC0 1.0 Licens. Læs mere om licens- og brugsbetingelser for CC0 1.0 licensen. OBS: COR.SEM.EXT er ikke udgivet med CC0 licens, men derimod CC BY-NC-ND.

COR Indekset

Første udgivelse i Det Centrale Ordregister er selve COR Indekset, som er publiceret den 1. oktober 2022. Her har de udvalgte danske ord fået tilknyttet et unikt COR id-nummer. Hertil er der koblet en række basisinformationer til COR Indekset, såsom ordklasser og bøjningsformer og der er udgivet en informationer over typiske fejlstavninger og alternative stavemåder. For en mere teknisk gennemgang af COR Indeksets så besøg ordregister.dk.

Det er Dansk Sprognævn der har stået for udarbejdelsen af COR-indekset med udgangspunkt i Retskrivningsordbogen. Det Danske Sprog- og Litteraturselskab har suppleret COR-indekset med gloser for homografer. Det Danske Sprog- og Litteraturselskab har desuden udarbejdet en liste med 29.000 lemmaer fra Den Danske Ordbog som ikke er optaget i Retskrivningsordbogen. De 29.000 lemmaer findes i en separat liste (COR.EXT.1.0) inkl. ordklasser og de fleste bøjningsformer. Hermed kan man udvide dækningsgraden i COR.COR.

Se alle udgivelser i COR Indekset nedenfor:

COR - En indekseret liste bestående af lemmaer i Retskrivningsordbogen.
COR Søgehjælp - Liste med typiske stavefejl og alternative stavemåder (både officielle og uofficielle) af nogle af Retskrivningsordbogens ord, samt angivelse af korrekt staveform.
COR EXT 1.0 - Indekseret liste med 25.000 lemmaer fra den Den Danske Ordbog (DDO), som ikke findes i COR Indekset og øger dermed dækningsgraden ift. COR 1.0. Indeholder ordklasser og de fleste bøjningsformer fra DDO.
COR Manual - Beskrivelser af indeksets struktur, med eksempler. Desuden findes der definitioner af, hvad en COR-ressource er, hvordan man opretter egen COR-ressource og kontaktoplysninger.
COR Teknisk specifikation - En teknisk specifikation af COR, samt uddybende forklaring af, hvordan egen COR ressourcer oprettes.

Kontakt: Dansk Sprognævn - cor.adm@dsn.dk.

COR.SEM

Som en del af COR-projektet har Det Danske Sprog- og Litteraturselskab og Center for sprogteknologi ved Københavns Universitet udviklet det semantiske modul COR.SEM. I COR.SEM angives formaliserede betydningsoplysninger for de fleste lemmaer i COR-indekset. Mange af oplysningerne bygger på information i Den Danske Ordbog, det danske WordNet DanNet, Den Danske Begrebsordbog, Det Danske Sentiment-leksikon og Det Danske FrameNet-leksikon. Der er desuden udarbejdet en lang række supplerende og helt nye oplysninger i projektet med henblik på at sikre endnu flere anvendelsesmuligheder i AI.

COR.SEM kan indgå som selvstændig semantisk komponent i danske sprogteknologiapplikationer eller anvendes som træningsmateriale til danske sprogmodeller, enten som en sprogressource eller via finetuning. Ressourcen kan også bruges som benchmark til at vurdere, hvor godt danske sprogmodeller håndterer forskellige aspekter af sprogforståelse.

Se alle udgivelser i COR.SEM nedenfor:

COR-SEM - COR.SEM 1.0 er en leksikalsk semantisk ressource der er koblet til enten grundressourcen COR eller COR.EXT. COR.SEM-ressourcen beskriver 34.000 danske lemmaers almensproglige betydninger, udtrykt ved hjælp af formaliserede værdier. Ressourcen er udarbejdet med udgangspunkt i en række oplysninger fra andre ordbøger: DanNet, Den Danske Ordbog, Det Danske FrameNet-leksikon, Det Danske Sentiment-leksikon samt Den Danske Begrebsordbog.
COR.SEM.EXT - COR.SEM.EXT 1.0 er en supplerende ressource til COR.SEM. COR.SEM.EXT indeholder betydningsforklaringer for alle betydninger i COR.SEM. For de fleste betydninger er der desuden et eller flere brugseksempler fra Den Danske Ordbog. OBS: COR.SEM.EXT er ikke udgivet med CC0 licens, men derimod CC BY-NC-ND.

Kontakt: Det Danske Sprog- og Litteraturselskab og Center for Sprogteknologi ved Københavns Universitet.