COR.SEM

COR-S tilføjer semantisk information til en stor del af ordene i Det centrale ordregister COR-K og COR.EXT.

I COR.SEM er oplysninger fra en række andre sprogressourcer samlet i én ressource, idet alle anvender samme betydningsindeksering som Den Danske Ordbog. Desuden er en lang række oplysninger udviklet og tilføjet, baseret på bl.a. oplysningstyper i det Danske Wordnet DanNet og Det Danske FrameNet-leksikon, Den Danske Ordbogs beskrivelser af det danske ordforråd samt information i Den Danske Begrebsordbog.

COR.SEM er et semantisk modul der kan anvendes i avancerede AI-applikationer hvor betydningslaget i sproget indgår. Modulet kan anvendes uafhængigt af COR-indekset til fx at udvikle benchmark-datasæt med henblik på at vurdere hvor godt sprogmodeller håndterer forskellige aspekter af sprogforståelse, eller til finetuning af sprogmodeller. COR.SEM kan også anvendes til semantisk opmærkning af tekster og som træningsdata.

COR-S indeholder 34.000 opslagsord med i alt 42.000 betydninger, herunder 10.500 opslagsord der er udpeget som centrale og væsentlige ord i dansk i DanNet og Den Danske Begrebsordbog.. Ressourcen indeholder desuden links til DanNet. COR.SEM kan suppleres med betydningsdefinitioner og brugseksempler fra datasættet COR.SEM.EXT under en mere restriktiv licens.

COR.SEM er udviklet af Det Danske Sprog- og Litteraturselskab og Center for Sprogteknologi, Københavns Universitet.

Data og Distribution(er)

Yderligere info test

Felt Værdi
Destinationsside ordregister.dk
Version 1.0
Metadata sidst opdateret marts 4, 2024, 12:00 (UTC)
Metadata oprettet januar 29, 2024, 13:01 (UTC)
Emne Sprog og retskrivning Uddannelse, kultur og sport
GUID 3d71fb3a-081f-40c0-a641-c5d7c5cc49db
Kontaktemail sekretariat@dsl.dk
Kontaktnavn Det Danske Sprog- og Litteraturselskab
Opdateringsfrekvens årlig
Overholder Det centrale ordregister (COR)
Provinance Det Danske Sprog- og Litteraturselskab og Digitaliseringsstyrelsen
Sprog dansk
URI https://data.gov.dk/dataset/lang/3d71fb3a-081f-40c0-a641-c5d7c5cc49db
Udgivelsesdato 06-02-2024
Udgivernavn Center for sprogteknologi ved Københavns Universitet og Det Danske Sprog- og Litteraturselskab
Dokumentation
Dataansvarlig organisation Center for sprogteknologi ved Københavns Universitet og Det Danske Sprog- og Litteraturselskab