Datasæt - sprogteknologi.dk

Statslige Digitale Publikationer - træningsdata

Datasættet består af 14465 statslige digitale publikationer indsamlet af Det Administrative Bibliotek, der indtil 1. januar 2025 var Det Kgl. Biblioteks service for ansatte i...

Parquet
CSV

Tekstdata fra pilotprojekt om kommunale byråds- og miljø-/teknikudvalgsmøder

Datasættet består af 9 mio. ord fra referater fra byråds- og miljø-/teknikudvalgsmøder hos fem kommuner: Aarhus Kommune, Favrskov Kommune, Kalundborg Kommune, Tønder Kommune og...

CSV
Parquet

Danmarks Breve - træningsdata

Datasættet består af 13516 breve skrevet fra 1500-tallet til 1900-tallet af danskere med historisk og kulturel betydning. Det er skabt af Det Kgl. Bibliotek, men er defineret af...

Parquet
CSV

Regnskabsdata

Nye og historiske regnskabsdata offentliggjort via Erhvervsstyrelsen. Samtlige selskaber i Danmark skal indberette deres årsrapport (regnskab) til Erhvervsstyrelsen. Regnskaber...

PDF
XML
ZIP

COR.SEM

COR.SEM tilføjer semantisk information til en stor del af ordene i Det centrale ordregister COR-K og COR.EXT. I COR.SEM er oplysninger fra en række andre sprogressourcer samlet...

TSV
HTML
CSV

Coral tekst-til-tale datasæt

Datasættet består af oplæsninger fra to professionelle danske talere, en kvinde og en mand, som har indlæst cirka 24 timers dansk tale hver. Datasættet er en del af CoRal-...

Parquet

Scrape fra dokumentsamling på Vip Region Hovedstaden

Digitaliseringsstyrelsen udgiver ét datasæt på baggrund af offentliggjorte tekster fra Region Hovedstadens dokumentsamling. Dokumentsamlingen består af vejledninger og...

Plain text
Parquet

Nordjylland News Image Captioning

Oliver Kinch fra Alexandra Instituttet har kureret datasættet nordjylland-news-image-captioning med artikler fra TV2 Nord. Datasættet består af artiklernes billeder,...

Parquet

Nordjylland News Summarization

Oliver Kinch fra Alexandra Instituttet har kureret datasættet nordjylland-news-summarization med artikler fra TV2 Nord ved hjælp af mediehusets API. Datasættet har CC0 licens....

Parquet

Nota lyd- og tekstdata

Datasættet indeholder både tekst- og taledata fra udvalgte dele af Nota's lydbogsbibliotek. Datasættet består af over 500 timers oplæsninger og medfølgende transskriptioner på...

WAV
Plain text

DanPASS udtaleordbogen

Udtaleordbog baseret på transskriptionerne i DanPASS-korpusset. Listen indeholder 67.285 transskriptioner af 2.232 fonologiske ord. Listen viser ortografisk ord,...

HTML
WAV

SMK Open

SMK Open arbejder på at stille hele Statens Museum for Kunsts værker til fri benyttelse ved at digitalisere og tilgængeliggøre museets værker. Lige nu er der mere end 111.000...

JSON
HTML

COR

Udgør indekset i Det Centrale Ordregister (COR) og består af en indekseret liste bestående af de fælles lemmaer i Retskrivningsordbogen. COR 1.0 består grundlæggende oplysninger...

TSV
JSON
HTML
CSV

COR EXT 1.0

COR.EXT 1.0 indeholder over 25.000 lemmaer fra Den Danske Ordbog, som ikke findes i COR 1.0. COR.EXT 1.0 indeholder ordklasser og de fleste bøjningsformer fra den Danske Ordbog....

TSV

COR Søgehjælp

COR.SOEGEHJAELP 1.0 er en liste med en række stavefejl og alternative stavemåder (både officielle og uofficielle), samt angivelse af korrekt form.Listen trækker på oplysninger...

TSV

Finansministeriets udgivelser

Finansministeriet spiller en helt central rolle for skiftende regeringers økonomiske politik. Ministeriet er blandt andet ansvarlig for udarbejdelsen af de årlige finanslove,...

PDF

Terminologi på skatteområdet

Terminologien er resultatet af begrebsafklaring på skatteområdet (knap 100 skattebegreber på dansk og engelsk), som blev foretaget i 2012, og som udgjorde det eksperimentelle...

PDF
Excel XLSX
SKOS

NST dansk ATG-database (16 kHz) – reorganisert

his database was created by Nordic Language Technology for the development of automatic speech recognition and dictation in Danish. In this updated version, the organization of...

Binary Data

NST Danish Dictation (22 kHz)

Samling af lydoptagelser i 22 kHz 1 kanal (mono). Stammer fra NST (Nordisk Språkteknologi) som gik konkurs i 2003. Er holdt ajour i den norske sprogbank i Nationalbiblioteket....

Binary Data

NST Danish ATG Database (16 kHz)

This database was originally developed by Nordic Language Technology in the 1990ies in order to facilitate automatic speech recognition in Danish . A reorganized and more user...

Binary Data

25 sprogressourcer fundet