Skip to main content

31 sprogressourcer fundet

Licenser: CC-BY-4.0 - Creative Commons Attribution 4.0

Filtrér resultater
  • Modern Danish Handwriting

    Modern Danish Handwriting er et dansksproget datasæt, der indeholder mere end 200 sider med transskriberet og korrekturlæst håndskrevet tekst. Modern Danish Handwriting består i...
  • DiEm HTR-Numbers

    DiEm HTR Numbers er et ground truth-datasæt, der består af tal med historisk dansk håndskrift fra 1700-tallet. Datasættet er lavet som en del af projektet Digitalisering af...
  • DiEm HTR

    Datasættet DiEm HTR er et ground truth-datasæt for historisk dansk håndskrift fra det 17. og 18. århundrede, og det er udarbejdet som en del af projektet Digitalisering af...
  • CVR-data

    Data fra det Centrale Virksomhedsregister (CVR), som er statens register for virksomhedsoplysninger. CVR indeholder grunddata om virksomheder og deres produktionsenheder, dvs....
  • The Danish Parliament Corpus 2009-2017, v2, w. subject annotation

    The Danish Parliament Corpus 2009 - 2017, v2, w. subject area annotation indeholder udskrifter af taler holdt i Folketinget, session 2009 til 2017 (6/10 2009 - 7/9 2017) og er...
  • Evalueringsdatasæt for 1000 danske talemåder og faste udtryk

    Det Danske Sprog- og Litteraturselskab har udviklet et datasæt til evaluering af sprogmodeller på dansk. Datasættet indeholder samlet 1000 danske talemåder og faste udtryk med...
  • Medical Spelling dictionary (processed)

    Medical spelling dictionary with terms in Danish, English and Latin This dataset has been created within the framework of the European Language Resource Coordination (ELRC)...
  • Klimarådets virkemiddelkatalog

    Klimarådet er et uafhængigt ekspertorgan, der rådgiver regeringen om, hvordan omstillingen til et klimaneutralt samfund kan ske, så vi i fremtiden kan leve i et Danmark med...
  • Fornavne og efternavne i befolkningen i Danmark

    Digitaliseringsstyrelsen udgiver et datasæt med Danmarks Statistiks lister over for- og efternavne for hele befolkningen i Danmark per januar 2020. Datasættet består af tre...
  • HyggeSwag

    “HyggeSwag” er et evalueringsdatasæt til at foretager natursprogsvurderinger: At lade sprogsystemer vurdere hvilken ud af flere tekstfortsættelser er i overenstemmelse med almen...
  • #twitterhjerne

    "#twitterhjerne” er et spørgsmåls/svar-datasæt, der indeholder dansksprogede spørgsmålstweets, hver med en tilhørende række svar på spørgsmålet.
  • Scandi Reddit Filtered

    ScandiReddit er et filtrereet korpus bestående af kommentarer fra Reddit.com. Alle Reddit kommentarer fra december 2005 til oktober 2022 blev downloadet via PushShift, hvorefter...
  • Navne i hele befolkningen (top-20)

    Igennem flere år har efternavnet Jensen ligget på 1. pladsen på top-20-listen over anvendte efternavne i hele befolkningen. For kvinder er det mest anvendte fornavn Anne, og for...
  • Danish Similarity Data Set

    The Danish similarity dataset is a gold standard resource for evaluation of Danish word embedding models. The dataset consists of 99 word pairs rated by 38 human judges...
  • The DK-CLARIN JRC-Acquis Parallel Corpus (da, en)

    The DK-CLARIN JRC-Acquis Parallel Corpus (da, en) is a part of the JRC-Acquis mulilingual parallel corpus, containing documents from The Acquis Communautaire (AC) which is the...
  • RøBÆRTa

    RøBÆRTa er en dansk præ-trænet Roberta sprogmodel. RøBÆRTa er blevet trænet på det danske mC4 datasæt i forbindelse med flax community week. Modellen er trænet til at gætte et...
  • The Leipzig Collection - Dansk sentiment

    Datasættet består af dansk data fra Leipzig Samlingen (The Leipzig Collection), som er blevet annoteret til sentiment analyse af Finn Årup Nielsen. Datasættets struktur: En...
  • Lex.dk - open

    Lex.dk-open er en samling af artikler fra Danmarks nationalleksikon, Lex.dk. Leksikonet er skrevet af danske forskere og andre fagpersoner, og er med flere end 230.000 artikler...
  • ScandiQA

    ScandiQA er et datasæt bestående af spørgsmål og svar på dansk, norsk og svensk. Alle samples kommer fra Natural Questions (NQ) datasættet, som er et stort datasæt med spørgsmål...
  • KlimaBERT

    KlimaBERT er et værktøj, som kan identificere og analysere politiske citater, der er relaterede til klima. Modellen fungerer bedst ved brug af officielle tekster fra...
Du kan også tilgå dette register med API (se API-dokumenter).