I dag er Det Centrale Ordregisters indeks lanceret

30. maj 2022

Udviklingen af Centralt Ordregister for dansk (COR) er et samarbejdsprojekt mellem Det Danske Sprog- og Litteraturselskab, Dansk Sprognævn, Center for Sprogteknologi på KU og Digitaliseringsstyrelsen om at udvikle en dansk sprogressource til AI-formål.

I dag er den formelle specifikation for COR-rammeværket, altså indekseringen i registeret, lanceret og gjort tilgængeligt. COR er et (maskinlæsbart) register der dækker hele det centrale danske ordforråd. COR indeholder de ca. 65.000 lemmaer som har en officiel staveform. Hver ordform har et unikt ID-nummer, som vil blive fastholdt i fremtiden. Hvis den officielle stavenorm ændres, bliver ændringerne gjort centralt tilgængelige således, at sprogteknologiske produkter automatisk kan holdes ajour (fx stavetjekkere, automatisk tekstgenerering, talegenkendelse og talesyntese). COR-indekseringen vil også gøre det lettere at lave søgninger på tværs af store sprogressourcer (fx tekstsamlinger, fagordbøger, talekorpora, termbaser).

Du kan nu hente og udforske COR-indekset for at se, om det kan gavne jeres sprogteknologiske projekt.

I forbindelse med lanceringen havde Dansk Sprognævn inviteret interessede parter til Bogense, hvor der blev holdt oplæg om COR projektet, use-cases for COR, samt mulighed for at få "hænderne på" COR og undersøge indekset.

Løbende brugertester udviklere af sprogteknologi COR-indekseringen og i september 2022 vil der blive publiceret tilhørende dokumentation som fx manualer, use-cases, tekniske specifikationer og lignende.