82 ressourcer fundet

Typer: Korpora

Filtrér resultater
  • SMK Open arbejder på at stille hele Statens Museum for Kunsts værker til fri benyttelse ved at digitalisere og tilgængeliggøre museets værker. Lige nu er der mere end 111.000...
    • JSON
    • HTML
  • Datasæt genereret vh.a. DanskGPT og brugt til at træne modellen Context-Aware-Splitter. Context-aware-splitter er en model til retrieval augmented generation. Modellen er...
    • Parquet
  • Retsinformation.dk er indgangen til det fælles statslige retsinformationssystem, der giver adgang til alle gældende love, bekendtgørelser og cirkulærer m.v. Der er også adgang...
    • XML
    • HTML
    • PDF
  • Nye og historiske regnskabsdata offentliggjort via Erhvervsstyrelsen. Samtlige selskaber i Danmark skal indberette deres årsrapport (regnskab) til Erhvervsstyrelsen. Regnskaber...
    • PDF
    • XML
  • Folketingets åbne data omfatter: metadata om sager og dokumenter i det parlamentariske arbejde i Folketingssalen samt udvalg fra oktober 2013 og fremefter. Herunder data om...
    • JSON
    • XML
  • Named entity recognition dataset til Danske juridiske tekster er et datasæt bestående af 2415 sætninger fra dokumenter i domsdatabasen. Disse dokumenter er annoteret med 8...
    • conll
  • Danske Taler er en levende samling, der konstant udvides med aktuelle taler. Vi indfanger og transskriberer de afgørende og definerende øjeblikke, hvor politikere, debattører og...
    • HTML
  • En word2vec2 model, som er trænet på omtrent 1300 timers dansk taledata fra podcasts og lydbøger. Modellen er trænet på 16kHz taledata, hvilket også er formatet, der skal...
    • BIN
  • Datasættet indeholder både tekst- og taledata fra udvalgte dele af Nota's lydbogsbibliotek. Datasættet består af over 500 timers oplæsninger og medfølgende transskriptioner på...
    • WAV
    • TXT
  • Dansk taledata fra Alvenir, som særligt kan bruges til at evaluere ASR modeller på dansk. Datasættet består af ca. 5 timers tale indtalt af 50 talere mellem 20 - 60 år....
    • WAV
  • The Danish Parliament Corpus 2009 - 2017, v2, w. subject area annotation indeholder udskrifter af taler holdt i Folketinget, session 20091 til 20161 (6/10 2009 - 7/9 2017) og er...
    • TXT
  • Lyd fra alle optagelser fra Folketingets møder i Folketingssalen samt fra høringer og samråd. Lydoptagelserne er identiske med lyden fra tv-optagelserne fra møderne. Du kan...
    • MP3
  • TV-optagelser og livetransmissioner fra alle Folketingets møder i Folketingssalen samt fra høringer og samråd. Udgivet under følgende licensbetingelser:...
    • MP4
    • HTML
  • Referater af Folketingets forhandlinger i XML-format. Udgivet under følgende licensbetingel-ser: https://www.ft.dk/da/dokumenter/aabne_data
    • XML
    • HTML
  • "The Norwegian Colossal Corpus (NCC) is a collection of multiple smaller Norwegian corpuses suitable for training large language models. We have done extensive cleaning on the...
    • JSON
  • DGT-TM er en oversættelseshukommelse (sætninger og deres manuelt fremstillede oversættelse) på 24 sprog. Den indeholder segmenter fra den gældende fællesskabsret – EU-...
    • TMX
  • Samling af 3 forskellige korpusser: korpus90, korpus2000, korpus2010 (bemærkning: De dækker hver især årene rundt om 90, 2000 og 2010 (og selve året)) POS-tagget og...
    • TXT
  • Listen indeholder opslagsordene i ODS (og ODS-S) på nettet ordnet.dk/ods samt de bøjningsformer der er registreret til brug for ordbogens søgefunktion. Listen er TAB-separeret...
    • CSV
  • CopCo er et eye-tracking korpus, som er skræddersyet til både psykolingvistik og natural language processing. Målet er at undersøge læseadfærd af danske tekster hos forskellige...
    • CSV
  • Samling af lydoptagelser i 22 kHz 1 kanal (mono). Stammer fra NST (Nordisk Språkteknologi) som gik konkurs i 2003. Er holdt ajour i den norske sprogbank i Nationalbiblioteket....
    • TXT
    • PCM
    • PDF