-
Lyd fra alle optagelser fra Folketingets møder i Folketingssalen samt fra høringer og samråd. Lydoptagelserne er identiske med lyden fra tv-optagelserne fra møderne. Du kan...
- MP3
-
TV-optagelser og livetransmissioner fra alle Folketingets møder i Folketingssalen samt fra høringer og samråd. Udgivet under følgende licensbetingelser:...
- MP4
- HTML
-
Folketingets åbne data omfatter: metadata om sager og dokumenter i det parlamentariske arbejde i Folketingssalen samt udvalg fra oktober 2013 og fremefter. Herunder data om...
- JSON
- XML
-
Datasæt genereret vh.a. DanskGPT og brugt til at træne modellen Context-Aware-Splitter. Context-aware-splitter er en model til retrieval augmented generation. Modellen er...
- Parquet
-
Nye og historiske regnskabsdata offentliggjort via Erhvervsstyrelsen. Samtlige selskaber i Danmark skal indberette deres årsrapport (regnskab) til Erhvervsstyrelsen. Regnskaber...
- XML
-
Named entity recognition dataset til Danske juridiske tekster er et datasæt bestående af 2415 sætninger fra dokumenter i domsdatabasen. Disse dokumenter er annoteret med 8...
- conll
-
En word2vec2 model, som er trænet på omtrent 1300 timers dansk taledata fra podcasts og lydbøger. Modellen er trænet på 16kHz taledata, hvilket også er formatet, der skal...
- BIN
-
Datasættet indeholder både tekst- og taledata fra udvalgte dele af Nota's lydbogsbibliotek. Datasættet består af over 500 timers oplæsninger og medfølgende transskriptioner på...
- WAV
- TXT
-
Dansk taledata fra Alvenir, som særligt kan bruges til at evaluere ASR modeller på dansk. Datasættet består af ca. 5 timers tale indtalt af 50 talere mellem 20 - 60 år....
- WAV
-
The Danish Parliament Corpus 2009 - 2017, v2, w. subject area annotation indeholder udskrifter af taler holdt i Folketinget, session 20091 til 20161 (6/10 2009 - 7/9 2017) og er...
- TXT
-
CopCo er et eye-tracking korpus, som er skræddersyet til både psykolingvistik og natural language processing. Målet er at undersøge læseadfærd af danske tekster hos forskellige...
- CSV
-
Samling af lydoptagelser i 22 kHz 1 kanal (mono). Stammer fra NST (Nordisk Språkteknologi) som gik konkurs i 2003. Er holdt ajour i den norske sprogbank i Nationalbiblioteket....
- TXT
- PCM
-
Samling af lydoptagelser i 16 kHz. Stammer fra NST (Nordisk Språkteknologi) som gik konkurs i 2003. Er holdt ajour i den norske sprogbank i Nationalbiblioteket. Ligger bl.a. til...
- PCM
-
Samling af lydoptagelser i 44 kHz. Stammer fra NST (Nordisk Språkteknologi) som gik konkurs i 2003. Er holdt ajour i den norske sprogbank i Nationalbiblioteket. Ligger bl.a. til...
- PCM
- TXT
-
135 mio parallelsætninger (1620 sprogpar - 85 sprog) fra Wikipedia. License: The mined data is distributed under the Creative Commons Attribution-ShareAlike license. Please cite...
- TSV
-
Parallel texts Danish-English from the Danish Ministry of Higher Education and Science, size: 120,000 words, topic: innovation, science This dataset has been created within the...
-
Parallel texts Danish-English from the Danish Ministry of Higher Education and Science, size 110,000 words, topic: research policy (Processed) This dataset has been created...
- TMX
-
The SemDax Corpus is a Danish human-annotated corpus relying on the combined wordnet and dictionary resources: DanNet and Den Danske Ordbog, and available through a CLARIN...
- XML
-
Dette korpus indeholder n-grammer på dansk afledt af et korpus på 290 millioner ord med danske nyhedsarktikler fra aviserne Berlingske Tidende, Ekstrabladet og Politiken....
- TXT
-
The DanPASS corpus was developed for research and applied research purposes. It consists of of non-scripted monologues and dialogues, recorded by 27 speakers, comprising a total...
- BIN
- TXT