Det Centrale Ordregister

Det Centrale Ordregister (COR) er en række sammenhængende udgivelser, der gør det muligt at sammenkoble viden om danske ord. På denne side findes et overblik over COR, som skal vise vej til de mange elementer, som COR indeholder, så du nemt og hurtigt kan finde det relevante materiale.

Baggrund for Det Centrale Ordregister

COR er et samarbejdsprojekt mellem Dansk Sprognævn, Det Danske Sprog- og litteraturselskab, Center for Sprogteknologi ved Københavns Universitet og Digitaliseringsstyrelsen. Målsætningen med COR er at gøre alle basisoplysninger om danske ord tilgængelige på en standardiseret og international kompatibel måde.

Det Centrale Ordregister understøtter dansk sprogteknologi ved at:

  • forlænge levetiden af danske korpusser
  • støtte effektiv deling af danske sprogressourcer
  • give åben adgang til strukturerede betydningsinformationer om danske ord
  • forøge sprogforståelsen i dansk sprogteknologi og dermed kvaliteten af dansksproget kunstig intelligens.
  • hurtigere og billigere opstart for nye virksomheder i sprogteknologi

COR vil give offentlige myndigheder, virksomheder og institutioner i Danmark mulighed for at udvikle sprogcentrerede AI-systemer, der tager afsæt i anerkendt, lokalt forankret viden om dansk sprog og kultur, herunder danske juridiske og forvaltningsmæssige traditioner, som dermed bedre matcher det samfund, de skal interagere med.

Ideen til COR stammer fra de anbaflinger, som Sprogteknologiudvalget, nedsat af Kulturministeriet, kom frem til. Én af anbefalingerne var, at der skulle oprettes en avanceret dansk orddatabase. Med COR etableres en avanceret dansk orddatabase, som er offentlig tilgængelig og kan anvendes af alle. I COR får danske ord et unikt COR id-nummer. Via det unikke id-nummer kan ord, på en entydig måde, identificeres i såvel tekstkorpora som ordbøger, på tværs af tekniske specifikationer, praktiske formål og licensmure. Derved vil man lettere kunne sammenkoble og dermed genbruge egne eller andres specialiserede sprogressourcer (både eksisterende og fremtidige) på tværs af systemer og sprog.

Sprogteknologiudvalgets analyse, konklusioner og anbefalinger er udgivet i rapporten "Dansk sprogteknologi i verdensklasse"

COR Indekset

Første udgivelse i Det Centrale Ordregister er selve COR Indekset, som er publiceret den 1. oktober 2022. Her har de udvalgte danske ord fået tilknyttet et unikt COR id-nummer. Hertil er der koblet en række basisinformationer til COR Indekset, såsom ordklasser og bøjningsformer og der er udgivet en informationer over typiske fejlstavninger og alternative stavemåder. For en mere teknisk gennemgang af COR Indeksets så besøg ordregister.dk.

Det er primært Dansk Sprognævn der har stået for udarbejdelsen af COR Indekset, med udgangspunkt i Retskrivningsordbogen. Det Danske Sprog- og Litteraturselskab har suppleret COR indekset med 25.000 lemmaer fra Den Danske Ordbog. De 25.000 lemmaer findes i en seperat liste (COR EXT 1.0) og indeholder ordklasser og de fleste bøjningsformer. Hermed kan du uvide dækningsgraden i COR.

Se alle udgivelser i COR Indekset i tabellen nedenfor:

Udgivelse og download

Beskrivelse Kontakt

COR 1.0

 

En indekseret liste bestående af lemmaer i Retskrivningsordbogen.

 

 

COR Søgehjælp

 

Liste med typiske stavefejl og alternative stavemåder (både officielle og uofficielle) af nogle af Retskrivningsordbogens ord, samt angivelse af korrekt staveform.

 

 

 

 

Dansk Sprognævn

COR EXT 1.0

 

Indekseret liste med 25.000 lemmaer fra den Den Danske Ordbog (DDO), som ikke findes i COR Indekset og øger dermed dækningsgraden ift. COR 1.0. Indeholder ordklasser og de fleste bøjningsformer fra DDO.

 

COR Manual

 

Beskrivelser af indeksets struktur, med eksempler. Desuden findes der definitioner af, hvad en COR-resurse er, hvordan man opretter egen COR-resurse og kontaktoplysninger.

 

 
     

COR Teknisk specifikation

En teknisk specifikation af COR, samt uddybende forklaring af, hvordan egen COR ressourcer oprettes.

 
Alle udgivelser i COR Indekset er udgivet under en CC0 1.0 Licens. Læs mere om licens- og brugsbetingelser for CC0 1.0 licensen

COR Semantik

Offentliggørelse i 2023.