Datasæt - sprogteknologi.dk

Statslige Digitale Publikationer - træningsdata

Datasættet består af 14465 statslige digitale publikationer indsamlet af Det Administrative Bibliotek, der indtil 1. januar 2025 var Det Kgl. Biblioteks service for ansatte i...

Parquet
CSV

Retsinformation

Retsinformation.dk er indgangen til det fælles statslige retsinformationssystem, der giver adgang til alle gældende love, bekendtgørelser og cirkulærer m.v. Der er også adgang...

XML
HTML
PDF

Modern Danish Handwriting

Modern Danish Handwriting er et dansksproget datasæt, der indeholder mere end 200 sider med transskriberet og korrekturlæst håndskrevet tekst. Modern Danish Handwriting består i...

Parquet

DiEm HTR-Numbers

DiEm HTR Numbers er et ground truth-datasæt, der består af tal med historisk dansk håndskrift fra 1700-tallet. Datasættet er lavet som en del af projektet Digitalisering af...

Parquet

DiEm HTR

Datasættet DiEm HTR er et ground truth-datasæt for historisk dansk håndskrift fra det 17. og 18. århundrede, og det er udarbejdet som en del af projektet Digitalisering af...

Parquet

Tekstdata fra pilotprojekt om kommunale byråds- og miljø-/teknikudvalgsmøder

Datasættet består af 9 mio. ord fra referater fra byråds- og miljø-/teknikudvalgsmøder hos fem kommuner: Aarhus Kommune, Favrskov Kommune, Kalundborg Kommune, Tønder Kommune og...

CSV
Parquet

CVR-data

Data fra det Centrale Virksomhedsregister (CVR), som er statens register for virksomhedsoplysninger. CVR indeholder grunddata om virksomheder og deres produktionsenheder, dvs....

JSON

Danmarks Breve - træningsdata

Datasættet består af 13516 breve skrevet fra 1500-tallet til 1900-tallet af danskere med historisk og kulturel betydning. Det er skabt af Det Kgl. Bibliotek, men er defineret af...

Parquet
CSV

CoRal - Danish Conversational and Read-aloud Dataset (Read-aloud only)

CoRal is a comprehensive Automatic Speech Recognition (ASR) dataset designed to capture the diversity of the Danish language across various dialects, accents, genders, and age...

HTML

CoRal - Danish Conversational and Read-aloud Dataset - version 2

CoRal v2 is a comprehensive Automatic Speech Recognition (ASR) dataset designed to capture the diversity of the Danish language across various dialects, accents, genders, and...

HTML

OS2KLE

OS2KLE er et maskinlæsbar KLE-datasæt, som sammen med en motor gør, at dokumenter automatisk kan opmærkes efter KLE. Motoren, som skal anvendes sammen med datasættet, kan være...

JSON
Plain text

Danish Dynaword

The Danish dynaword is a collection of Danish free-form text datasets from various domains. All of the datasets in Danish Dynaword are openly licensed and deemed permissible for...

Parquet

Donér din stemme taledatasæt

I Doner din stemme indsamles danske taledata. Indsamlingen foregår på donerdinstemme.dk og sker igennem frivillige donationer fra borgere. Formålet er at skabe et åbent...

JSON

Regnskabsdata

Nye og historiske regnskabsdata offentliggjort via Erhvervsstyrelsen. Samtlige selskaber i Danmark skal indberette deres årsrapport (regnskab) til Erhvervsstyrelsen. Regnskaber...

PDF
XML
ZIP

Danish Legal monolingual corpus from the contents of the retsinformation.dk web site

Danish Legal monolingual corpus from the contents of the retsinformation.dk web site This dataset has been created within the framework of the European Language Resource...

Plain text

Historical Danish Handwriting

The Historical Danish handwriting dataset is a Danish-language dataset containing more than 11.000 pages of transcribed and proofread handwritten text. The dataset currently...

Parquet

Komplet udtræk af Retskrivningsordbogen

Komplet XML-opmærket ordbog med alle bøjede former og grammatiske oplysninger, orddeling af opslagsord, eksempler, mv. Må kun bruges integreret i sprogteknologiske produkter,...

HTML
XML

DanNet

DanNet is a Danish lexical semantic wordnet; i.e. a language resource where the semantic relations between words are expressed in a formal language and thereby made usable for...

CSV
OWL

Danish Semantic Reasoning Benchmark

A Danish semantic reasoning benchmark compiled from lexical semantic resources This benchmark is the first version of a semantic reasoning benchmark for Danish compiled semi-...

HTML

Framenet DK

Ordbog (et Frame-leksikon) med verbers og verbalsubstantivers semantiske rammer (Frames) ud fra standarden Berkeley FrameNet https://framenet.icsi.berkeley.edu/fndrupal/ (der...

CSV

214 sprogressourcer fundet