-
Lex.dk-open er en samling af artikler fra Danmarks nationalleksikon, Lex.dk. Leksikonet er skrevet af danske forskere og andre fagpersoner, og er med flere end 230.000 artikler...
- Parquet
-
Retsinformation.dk er indgangen til det fælles statslige retsinformationssystem, der giver adgang til alle gældende love, bekendtgørelser og cirkulærer m.v. Der er også adgang...
- XML
- HTML
- ELI
-
Datasættet består af oplæsninger fra to professionelle danske talere, en kvinde og en mand, som har indlæst cirka 24 timers dansk tale hver. Datasættet er en del af CoRal-...
- Parquet
-
The Danish 1st edition of Georg Brandes' main work "Hovedstrømninger i det 19de Aarhundredes Litteratur" (1872-90, en. Main Currents). The texts are critically edited and...
- HTML
-
PAROLE-DK er et manuelt opmærket korpus som danner en de fakto-standard for POS-opmærkning af mange danske og udenlandske resurser. ePAROLE (udgivet i 2015) er en revideret...
- XML
- TXT
-
DK-CLARIN Reference Corpus of General Danish has been collected as part of DK-CLARIN project, WP2.1, 2008 - 2011. All texts are in XML TEIP5 format (TEIP5DKCLARIN-format), with...
- XML
-
Listen indeholder opslagsordene i ODS (og ODS-S) på nettet ordnet.dk/ods samt de bøjningsformer der er registreret til brug for ordbogens søgefunktion. Listen er TAB-separeret...
- CSV
-
Samling af 3 forskellige korpusser: korpus90, korpus2000, korpus2010 (bemærkning: De dækker hver især årene rundt om 90, 2000 og 2010 (og selve året)) POS-tagget og...
- TXT
-
Tekster fra Arkiv for Dansk Litteratur (ADL). Ældre dansk litteratur. Licens: https://github.com/Det-Kongelige-Bibliotek/access-digital-objects/blob/master/LICENSE
- XML
-
Referater af Folketingets forhandlinger i XML-format. Udgivet under følgende licensbetingel-ser: https://www.ft.dk/da/dokumenter/aabne_data
- XML
- HTML
-
Lyd fra alle optagelser fra Folketingets møder i Folketingssalen samt fra høringer og samråd. Lydoptagelserne er identiske med lyden fra tv-optagelserne fra møderne. Du kan...
- MP3
-
TV-optagelser og livetransmissioner fra alle Folketingets møder i Folketingssalen samt fra høringer og samråd. Udgivet under følgende licensbetingelser:...
- MP4
- HTML
-
SMK Open arbejder på at stille hele Statens Museum for Kunsts værker til fri benyttelse ved at digitalisere og tilgængeliggøre museets værker. Lige nu er der mere end 111.000...
- JSON
- HTML
-
Datasæt genereret vh.a. DanskGPT og brugt til at træne modellen Context-Aware-Splitter. Context-aware-splitter er en model til retrieval augmented generation. Modellen er...
- Parquet
-
Nye og historiske regnskabsdata offentliggjort via Erhvervsstyrelsen. Samtlige selskaber i Danmark skal indberette deres årsrapport (regnskab) til Erhvervsstyrelsen. Regnskaber...
- XML
-
Folketingets åbne data omfatter: metadata om sager og dokumenter i det parlamentariske arbejde i Folketingssalen samt udvalg fra oktober 2013 og fremefter. Herunder data om...
- JSON
- XML
-
Named entity recognition dataset til Danske juridiske tekster er et datasæt bestående af 2415 sætninger fra dokumenter i domsdatabasen. Disse dokumenter er annoteret med 8...
- conll
-
Danske Taler er en levende samling, der konstant udvides med aktuelle taler. Vi indfanger og transskriberer de afgørende og definerende øjeblikke, hvor politikere, debattører og...
- HTML
-
En word2vec2 model, som er trænet på omtrent 1300 timers dansk taledata fra podcasts og lydbøger. Modellen er trænet på 16kHz taledata, hvilket også er formatet, der skal...
- BIN
-
Datasættet indeholder både tekst- og taledata fra udvalgte dele af Nota's lydbogsbibliotek. Datasættet består af over 500 timers oplæsninger og medfølgende transskriptioner på...
- WAV
- TXT