Danish Dependency Treebank (DaNE)
DaNE adds NER annotations to the The Danish Universal Dependencies Treebank (UD-DDT). The Danish UD treebank (Johannsen et al., 2015, UD-DDT) is a conversion of the Danish Dependency Treebank (Buch-Kromann et al. 2003) based on texts from Parole (Britt, 1998). UD-DDT has annotations for dependency parsing and POS. The dataset was annotated with Named Entities for PER, ORG and LOC by the Alexandra Institute in the DaNE dataset (Hvingelby et al. 2020). To read more about how the dataset was annotated with POS and DEP tags we refer to the Universal Dependencies page. License: https://creativecommons.org/licenses/by-sa/4.0/
NEVER
https://data.gov.dk/concept/core/lang-resource-type/Tool
NER
Tekst
2020-05-01T00:00:00
2020-05-01T00:00:00
CDT - The Copenhagen Danish-English Dependency Treebank
The Copenhagen Dependency Treebanks are a set of treebanks for Danish, English, Spanish and Italian. The purpose of the Copenhagen Dependency Treebank project is to create linguistically annotated text collections (treebanks) on the basis of the dependency-based grammar formalism Discontinuous Grammar (Buch-Kromann 2009). The treebanks created in the project can be used to train natural language parsers, syntax-based machine translation systems, and other statistically based natural language applications. The treebanks are based on a unified dependency annotation, where texts are analyzed as a single dependency structure that spans all levels of analysis, from morphology to discourse.
Reference: Buch-Kromann, M. (2009). Discontinuous Grammar: A Dependency-Based Model of Human Parsing and Language Learning. Saarbrücken: VDM Verlag Dr. Müller. (https://research.cbs.dk/en/publications/discontinuous-grammar-a-dependency-based-model-of-human-parsing-a)
https://data.gov.dk/concept/core/lang-resource-type/Tool
Paralleltekst
Tekst
2011-2012
2022-12-08T15:11:57.514530
Matthias Buch-Kromann
Matthias Buch-Kromann
Alexandra Instituttet
Alexandra Instituttet
Danish Dependency Treebank (DaNE) - CoNLL-U
Tilgå download download af Danish Dependency Treebank (DaNE) i CoNLL-U format.
coNLL-U
2020-06-19T06:40:49.434678
2022-12-08T09:55:20.496544
sprogteknologi.dk
da_DK
2024-03-18T13:04:49.964300
Kommunal semantisk grundmodel 2
Kommunal Semantisk Grundmodel nr. 2 er en semantisk søgemodel der en finjusteret version af den [Kommunale grundmodel nr.1](https://sprogteknologi.dk/dataset/kommunal_semantisk_grundmodel_et) til at klassificere et givet KL-område baseret på en inputsætning. Sprogmodellen er trænet på 2,672,566 unikke sætninger som er skrabet og filtreret fra 94 kommunale hjemmesider.
Modellen er udarbejdet i forbindelse med [AI-aktindsigt](https://ai-aktindsigt.dk/), som er et samarbejde mellem Sønderborg Kommune, Vejen Kommune, Fredensborg Kommune og virksomheden Aktio.
fe2476cc-f1f3-496c-82fe-ecbe1c75d46a
AI-aktindsigt
Kommune
Kommuner
søgemodel
2024-03-13T00:00:00
2023-06-12T00:00:00
Sønderborg Kommune
Heidrun-Mistral-7B-Chat
Heidrun-Mistral-7B-chat er en chat-baseret model, som bygger på Heidrun-Mistral-7B-base og er blevet finjusteret på OpenHermes og SkoleGPT instruktion/chat datasættene.
Modellen performerer godt i logiske og resoneringsopgaver og er den bedst rangeret Danske og Skandinaviske Open-source sprogmodel på ScandEval.
ec0b9528-8674-449f-8925-91e4fddc573b
Heidrun
OpenHermes
chat
instruktionsdata
2024-02-13T00:00:00
2023-02-17T00:00:00
Magnus Mabeck
Heidrun-Mistral-7B
Heidrun-Mistral-7B-base er en generativ sprogmodel, som bygger på Mistral-7B og er blevet yderligere prætrænet på det danske Wikipedia, Wikibooks og små dele af hestenettet. Den er en foundational/completion model, som videregenerer tekst.
fd7eafa2-0cba-4738-84e2-46c6d9b4d109
generativ sprogmodel
mistral
sprogmodel
værktøj
2024-11-02T00:00:00
2024-02-24T00:00:00
Magnus Mabeck
Kommunal semantisk grundmodel 1
Kommunal Semantisk Grundmodel nr. 1 er en videretræning af det Norske nationalbiblioteks AI laboratories (NbAiLab) BERT-Base sprogmodel, og er trænet på 2,672,566 unikke sætninger som er skrabet og filtreret fra 94 kommunale hjemmesider.
Sprogmodellen er af typen Masked Language Model (MLM), på dansk en maskeret sprogmodel. Sprogmodellen er trænet til at prædiktere ord-kandidater til ét eller flere maskerede ord i en given sekvens af ord. Ved en succesfuld træning med denne metode opnår sprogmodellen såvel sprog som semantisk forståelse, og kan derfor anvendes til f.eks. semantisk søgning ved at producere embeddings (matematiske repræsentationer af ordsekvenser; f.eks. en sætning). Embeddings kan anvendes til at fremsøge synonymer til bestemte ord i en sekvens eller til at vurdere den sproglige sammenhæng af en given sætning.
Modellen kan finjusteres på nye data og den kan videretrænes til at løse bestemte opgavetyper som f.eks. identifikation af navngivne entiteter, tekstanalyse i mange former, sentiment klassifikation, chatbot funktionalitet, sentiment-scoring m.v.
Modellen er udarbejdet i forbindelse med AI-aktindsigt, som er et samarbejde mellem Sønderborg Kommune, Vejen Kommune, Fredensborg Kommune og virksomheden Aktio.
[Du finder BERT-base modellen her](https://sprogteknologi.dk/dataset/nb-bert)
22f5198d-7048-4ff6-9675-beedb428416e
1.0
AI-aktindsigt
Kommune
Kommuner
grundmodel
2024-03-13T00:00:00
2024-03-13T08:45:16.368587
Sønderborg Kommune
COR.SEM.EXT 1.0
COR.SEM.EXT 1.0 er en supplerende resurse til COR.SEM. COR.SEM.EXT indeholder betydningsforklaringer for alle betydninger i COR.SEM. For de fleste betydninger er der desuden et eller flere brugseksempler fra Den Danske Ordbog.
COR.SEM.EXT er udviklet af [Det Danske Sprog- og Litteraturselskab (DSL)](www.dsl.dk) og [Center for Sprogteknologi, Københavns Universitet (CST).](https://cst.ku.dk).
COR.SEM.EXT udgives under en mere lukket licens end COR.SEM, [CC BY-NC-ND](https://creativecommons.org/licenses/by-nc-nd/4.0/deed.da). Det Danske Sprog- og Litteraturselskab (DSL) og Center for Sprogteknologi, Københavns Universitet (CST) skal krediteres i publikationer og produkter der helt eller delvist er baseret på COR.SEM.EXT.
511d3296-6613-4724-a166-208968c95693
1.0
COR
COR-SEM
betydningsforklaringer
ordbog
semantik
2024-05-02T00:00:00
2024-03-04T12:00:36.182420
Det centrale ordregister (COR)
Det Danske Sprog- og Litteraturselskab
Center for sprogteknologi ved Københavns Universitet og Det Danske Sprog- og Litteraturselskab
COR.SEM
COR-S tilføjer semantisk information til en stor del af ordene i Det centrale ordregister [COR-K og COR.EXT](https://ordregister.dk/).
I COR.SEM er oplysninger fra en række andre sprogressourcer samlet i én ressource, idet alle anvender samme betydningsindeksering som [Den Danske Ordbog](https://ordnet.dk/ddo). Desuden er en lang række oplysninger udviklet og tilføjet, baseret på bl.a. oplysningstyper i det Danske Wordnet [DanNet](https://wordnet.dk/dannet/page/frontpage) og [Det Danske FrameNet-leksikon](https://korpus.dsl.dk/resources/details/framenet.html), [Den Danske Ordbogs](https://ordnet.dk/ddo) beskrivelser af det danske ordforråd samt information i [Den Danske Begrebsordbog](https://ordnet.dk/ddb/den-danske-begrebsordbog).
COR.SEM er et semantisk modul der kan anvendes i avancerede AI-applikationer hvor betydningslaget i sproget indgår. Modulet kan anvendes uafhængigt af COR-indekset til fx at udvikle benchmark-datasæt med henblik på at vurdere hvor godt sprogmodeller håndterer forskellige aspekter af sprogforståelse, eller til finetuning af sprogmodeller. COR.SEM kan også anvendes til semantisk opmærkning af tekster og som træningsdata.
COR-S indeholder 34.000 opslagsord med i alt 42.000 betydninger, herunder 10.500 opslagsord der er udpeget som centrale og væsentlige ord i dansk i [DanNet](https://wordnet.dk/dannet/page/frontpage) og [Den Danske Begrebsordbog.](https://ordnet.dk/ddb/den-danske-begrebsordbog). Ressourcen indeholder desuden links til [DanNet](https://wordnet.dk/dannet/page/frontpage). COR.SEM kan suppleres med betydningsdefinitioner og brugseksempler fra datasættet [COR.SEM.EXT](https://sprogteknologi.dk/dataset/cor-sem-ext) under en mere restriktiv licens.
COR.SEM er udviklet af [Det Danske Sprog- og Litteraturselskab](https://dsl.dk/) og [Center for Sprogteknologi, Københavns Universitet.](https://cst.ku.dk/)
890ac837-7e14-465e-9975-296dc0e9e74b
1.0
2024-06-02T00:00:00
2024-03-04T12:00:10.974657
Det centrale ordregister (COR)
Det Danske Sprog- og Litteraturselskab
Center for sprogteknologi ved Københavns Universitet og Det Danske Sprog- og Litteraturselskab
Framenet DK
ordbog (et Frame-leksikon) med verbers og verbalsubstantivers semantiske rammer (Frames) ud fra standarden Berkeley FrameNet https://framenet.icsi.berkeley.edu/fndrupal/ (der beskriver de anvendte frames formelt) Udviklet med henblik på (manuel) semantisk opmærkning af danske korpustekster, fx når semantiske korpustræningsdata skal udvikles for dansk
Licens: https://github.com/dsldk/dansk-frame-net/blob/master/LICENSE
https://data.gov.dk/concept/core/lang-resource-type/Tool
Tekst
2020-06-16T07:38:06.594218
2017-01-01T00:00:00
DSL
DSL
1955-01-01T00:00:00
2014-01-01T00:00:00
DanNet
DanNet is a Danish lexical semantic wordnet; i.e. a language resource where the semantic relations between words are expressed in a formal language and thereby made usable for IT systems dealing with intelligent information handling. The DanNet database contains at present 65,000 concepts described in form of so-called synsets (sets of synonyms) related to one another by hyperonyms and hypernyms and for about 50 % of the concepts by other types of relations, e.g. used_for. All concepts are furthermore related to an ontological type (e.g. Human, Artifact or Activity). About 5,000 Danish synsets are linked to the equivalent English synsets of Princeton WordNet. Through the multilingual wordnet initiative Wordties (wordties.cst.dk), DanNet is linked to the Finnish, Swedish, Estonian and Polish wordnet.
DanNet udvikles gennem et forskningssamarbejdsprojekt mellem CST og DSL. Finansieret af FKK.
Licens:
https://cst.ku.dk/projekter/dannet/license.txt
https://data.gov.dk/concept/core/lang-resource-type/LexicalConceptualResource
Tekst
Wordnet
2013-01-03T00:00:00
2013-01-03T00:00:00
Bolette Pedersen
Centre for Language Technology, NorS, University of Copenhagen
Danish Sentiment Lexicon
Det Danske Sentimentleksikon (DDS) bygger på "Den Danske Begrebsordbog" og "Den Danske Ordbog" og er udarbejdet gennem leksikografiske metoder. DDS tilskriver en negativ eller positiv værdi til 14007 danske ord på en skala fra -5 til +5 og angiver samtidig fuldformer af ordene.
I dokumentationen findes en udførlig beskrivelse af, hvordan datasættet er blevet udarbejdet.
Danish Sentiment Lexicon er udarbejdet af Det danske Sprog- og Litteraturselskab og Center for Sprogteknologi ved Københavns Universitet.
31ae42f8-5bf2-42be-8961-9b00d55ff9a1
DSL
Dansk
Sentiment
leksikalsk ressource
2022-02-07T11:09:51.183926
2022-06-22T00:00:00
Det Danske Sprog- og Litteraturselskab og Center for Sprogteknologi
Danske Sprog- og Litteraturselskab
Angry Tweets Binary
Dette datasæt består af anonymiserede danske Twitter data, som er blev annoteret for sentimentanalysee gennem crowd-sourcing. Alt anerkendelse skal gives til forfatterne til denne raport, som skabte datasættet:
https://aclanthology.org/2021.nodalida-main.53/
[Pauli, Amalie Brogaard, et al. "DaNLP: An open-source toolkit for Danish Natural Language Processing." Proceedings of the 23rd Nordic Conference on Computational Linguistics (NoDaLiDa). 2021]
Datasættets struktur:
En række består af de følgende felter: text(str): Et tweets indhold og Label(str): Det mærkat der indikerer om et tweet er 'Positive', 'Neutral' eller 'Negative'.
ca7d7659-02d6-403e-9f30-21733439680a
1.0
Korpus
Dansk sentiment
Sentimentanalyse
2023-11-10T00:00:00
2023-11-10T00:00:00
Dan Saattrup Nielsen
Danish Data Science Community
Twitter-Sent
Twitter-Sent er anonymiserede dansk Twitter data, som er blevet annoteret til sentiment analyse af Alexandra Instituttet.
Datasættets struktur:
En række består af de følgende felter: text(str): Et tweets indhold og Label(str): Det mærkat der indikerer om et tweet er 'Positive', 'Neutral' eller 'Negative'.
93ba2653-9070-45c2-a007-309f42d61a59
1.0
Dan Saattrup Nielsen
Dansk sentiment
Sentimentanalyse
2021-12-15T00:00:00
2022-01-07T00:00:00
Dan Sattrup Nielsen
Danish Data Science Community
Europarl
Europarl er dansk data fra Europa Parlamentet som er blevet annoteret til sentiment analyse af Alexandra Instituttet.
Datasættets struktur:
En række består af de følgende felter: text(str): Det tekstuelle indhold og Label(str): Det mærkat der indikerer om en tekst er 'Positive', 'Neutral' eller 'Negative'.
e86732d7-5331-4656-a701-b4fb578612ab
1.0
Korpus
Dansk sentiment
Sentimentanalyse
2021-12-15T00:00:00
2022-01-07T00:00:00
Dan Saattrup Nielsen
The Leipzig Collection - Dansk sentiment
Datasættet består af dansk data fra Leipzig Samlingen (The Leipzig Collection), som er blevet annoteret til sentiment analyse af Finn Årup Nielsen.
Datasættets struktur:
En række består af de følgende felter: text(str): Et tweets indhold og Label(str): Det mærkat der indikerer om et tweet er 'Positive', 'Neutral' eller 'Negative'.
783b3b95-9a4f-4266-bc05-1c9d79e6066d
1.0
https://data.gov.dk/concept/core/lang-resource-type/corpusorpus
Dansk sentiment
Sentimentanalyse
2021-12-15T00:00:00
2023-07-20T00:00:00
Dan Saattrup Nielsen
Scandinavian Embedding Benchmark (SEB)
Scandinavian Embedding Benchmark (SEB), er en benchmarking platform til de Skandinaviske sprog (Dansk, Nynorsk, Bokmål, og Svensk). Benchmarket forsøger at evaluerer kvaliteten af embedding til søgning, retrieval (e.g. retrieval augmented generation), klassifikation og lignende. Benchmarket består af en python pakke samt et offentligt dashboard som løbende holdes opdateres med de nyeste modeller både flersproglige og enkeltsproget modeller.
Se også [Danish Foundation Models](https://www.foundationmodels.dk/)
697e9a24-630a-4381-8c1f-178e02abd645
https://data.gov.dk/concept/core/lang-resource-type/Tool
Benchmark
Bokmål
Dansk
NLP
Norsk
Nynorsk
Svensk
embeddings
retrieval
sprogmodeller
2021-01-20T00:00:00
2024-02-22T11:04:30.221331
Márton Kardos
Kenneth Enevoldsen
ScandEval
ScandEval er en benchmarking platform for sprogmodeller på dansk, norsk (både bokmål og nynorsk), svensk, islandsk og færøsk. Den indeholder først og fremmest en benchmarking Python pakke, scandeval, som uniformt kan benchmarke alle modeller fra Hugging Face Hub på de 29 datasæt indeholdt i benchmarket. Derudover er der også udgivet ScandEval leaderboards, som sammenligner alle de skandinaviske (og multilinguale) sprogmodeller, som er tilgængelige. Dette udgør pr dags dato 67 modeller.
ad8a0e2b-3b17-4ceb-ac02-9c95a6abe0eb
Bokmål
Dansk
Færøsk
Islandsk
NLP
Nynorsk
Svensk
benchmark
sprogmodeller
2021-09-08T00:00:00
2024-02-21T09:21:45.382178
Dan Saattrup Nielsen
Dan Saattrup Nielsen
DanskGPT-tiny
DanskGPT-tiny er en 1,1 milliard parametre LLaMA baseret LLM. Træningen er en fortsættelse af TinyLLaMA.
Modellen er trænet på 8 milliarder tokens af dansk syntetisk tekst.
Denne model er en såkaldt "foundation/completion" model, og er derfor ikke beregnet til at chatte med.
e884e98b-d2ae-4a9c-a88a-49efcaef2b3a
danskgpt
foundation
llm
sprogmodel
2024-01-03T00:00:00
2024-01-13T00:00:00
Hviske
Dansk tale-til-tekst model, baseret på OpenAI's Whisper v3 large.
Modellen er trænet på flere danske datasæt og dækker ca. 300 timers dansk tale fra personer i alle aldersgrupper og nogenlunde ligeligt fordelt på regioner samt køn.
Modellen opnår en WER (word error rate) på 5.8.
5584459c-fdd5-48d8-af30-ccdc7a7e1fe5
ubekendt
2023-11-30T00:00:00
2023-12-02T00:00:00
Mads Henrichsen
COR Søgehjælp
COR.SOEGEHJAELP 1.0 er en liste med en række stavefejl og alternative stavemåder (både officielle og uofficielle), samt angivelse af korrekt form.Listen trækker på oplysninger der bruges i søgealgoritmen på Den Danske Ordbogs hjemmeside [ordnet.dk](www.ordnet.dk) for at hjælpe brugeren til at finde det ønskede opslagsord.
COR Søgehjælp er udgivet i forbindelse med [COR-projektet](https://sprogteknologi.dk/pages/det-centrale-ordregister).
33dec277-621b-42c0-85e0-9425af4fab45
1.0
publications.europa.eu/resource/authority/frequency/UNKNOWN
COR
Det Centrale Ordregister
fejlstavninger
stavefejl
søgehjælp
2022-10-01T00:00:00
2024-02-05T12:06:23.106360
Det Centrale Ordregister (COR)
Dansk Sprognævn
COR EXT 1.0
COR.EXT 1.0 indeholder over 25.000 lemmaer fra Den Danske Ordbog, som ikke findes i COR 1.0. COR.EXT 1.0 indeholder ordklasser og de fleste bøjningsformer fra den Danske Ordbog. Denne ressource udvider begrebsdækningen i [COR 1.0](https://sprogteknologi.dk/dataset/12fade48-4492-464f-9d1e-c103666dba72) med 25.000 lemmaer, som ikke indgår i Retskrivningsordbogen.
COR EXT er udgivet i forbindelse med [COR-projektet](https://sprogteknologi.dk/pages/det-centrale-ordregister).
8764065b-cec3-44d3-b31f-7583cbbefe4c
1.0
COR
DDO
DSL
Den Danske Ordbog
Det Centrale Ordregister
sprogforståelse
2022-10-01T00:00:00
2024-02-05T12:05:56.007407
Det Centrale Ordregister(COR)
Dansk Sprognævn
COR
Udgør indekset i Det Centrale Ordregister (COR) og består af en indekseret liste bestående af de fælles lemmaer i Retskrivningsordbogen.
COR 1.0 består grundlæggende oplysninger om de danske ord. I COR Indekset finder man ordenes korrekt stavning og bøjning, samt oplysninger om, hvordan de indgår i sammensætninger. Udvid dækningsgraden markant med ord fra Den Danske Ordbog ved at hente COR EXT.
[Du kan få mere information og viden om Det Centrale Ordregister på vores COR-side](https://sprogteknologi.dk/pages/det-centrale-ordregister)
c9783bcd-434b-44e5-b037-b4592768a207
1.02
COR
Det Centrale Ordregister
leksikalsk ressource
retskrivningsordbogen
2022-01-10T00:00:00
2024-02-05T12:05:23.389451
Det Centrale Ordregister (COR)
Dansk Sprognævn
Dansk Sprognævn
SMK Open
SMK Open arbejder på at stille hele Statens Museum for Kunsts værker til fri benyttelse ved at digitalisere og tilgængeliggøre museets værker. Lige nu er der mere end 111.000 værker i Public Domain inkl. over 39.000 med foto. Udover den digitale udstilling af værkerne, så findes der også en række metadata omkring værkerne. Metadata kan i nogle sammenhænge være på engelsk.
__ Vær venligst opmærksom på, at det ikke er alle værker i samlingen der er udgivet under CC0 1.0 licens. __
Ved API kald kan man udgrænse de ophavsretsbeskyttede værker. SMK's API er en RESTful service, der svarer på forespørgsler med JSON-formateret data. Du kan læse mere om, hvordan du bruger API'et her: https://www.smk.dk/article/smk-api/.
Vi gør opmærksom på, at kvaliteten kan variere. SMK arbejder på løbende at udskifte ældre optagelser med nye i høj kvalitet.
a2df82b9-3539-471c-ac64-a26c70ef3eec
SMK
billeder
kunst
2019-01-11T00:00:00
2024-01-31T11:48:03.567896
SMK Open
CoRal Models Platform
CoRal-Models er en kodebase, som gør det enkelt at finjustere prætrænede lydmodeller, såsom Wav2Vec 2.0 eller Whisper, på et eller flere datasæt med transskriberet lyddata. Både modelkonfigurationen samt datasætsammensætningen kan nemt konfigureres, som gør det muligt hurtigt at prøve flere kombinationer igennem for at opnå den mest optimale model. Kodebasen understøtter p.t. ASR (tale-til-tekst) modeller, men kommer også til at inkludere TTS (tekst-til-tale) modeller i fremtiden. Værktøjet kan anvendes til generel træning af lydmodeller.
Danish Conversational and Read-aloud Speech Dataset (CoRal) er et samarbejde mellem Alexandra Instituttet, Digitaliseringsstyrelsen, Datalogisk Institut, Københavns Universitet - DIKU, Alvenir. Projektet løber fra 2023-2025, hvor der vil blive indsamlet et taledatasæt med op til 1000-1500 timers samtale og oplæst tale fra et bredt og repræsentativt udsnit af befolkningen.
334a9c1a-b1e5-4975-8e2f-44b909704e7d
ubekendt
ASR
Alexandra Instituttet
TTS
lydmodeller
taledata
taleteknologi
2023-04-24T00:00:00
2024-12-01T00:00:00
Dan Saattrup Nielsen
Alexandra Instituttet
Dansk Wikipedia
Maskinlæsbar version af dumps fra den danske wikipedia.
Se https://foundation.wikimedia.org/wiki/Terms_of_Use, da der kan forekommer forskellige licensvilkår afhængigt af materialet. Ressourcen her er udstillet med den strengeste af licenserne, og noget af materialet er fx også udgivet med en CC0 licens.
00c53f61-b9f0-48a7-9e27-4b2dbdab895d
Dansk
Tekst
Wikipedia
2019-01-01T00:00:00
2024-01-29T10:05:59.339561
Wikimedia Foundation
Rec&nition
Dette repository indeholder kode og modelvægtene til Rec&nition algortimen. Den er udviklet af Analyse og Tal F.M.B.A. med støtte fra TryghedsFonden.
Algoritmen er designet til at klassificere små tekststykker efter, om de indeholder anerkendende sprog. Den er blevet brugt til at finde anerkendende sprog i den offentlige debat, ved at kigge på om en Facebook kommentar er skrevet pænt og indbyder til dialog. Du kan læse mere om arbejdet i udgivelsen [her](https://www.tryghed.dk/viden/publikationer/trivsel/anerkendelse-i-den-offentlige-debat-paa-facebook)
Den bedste model bruger en dansk electra model som sprogmodel og har et feed forward lag til selve klassificeringen.
ea6cf331-3dd2-40c8-b629-279d7f069e41
Analyse
Anerkendelse
Attack
Dansk
Hate
NLP
Recognition
Sentiment analysis
Tal
recognition
værktøj
2021-03-12T00:00:00
2024-01-25T09:46:38.829998
Ronnie Taarnborg og Edin Lind Ikanovic
Stortinget Speech Corpus version 1.0
https://aclanthology.org/2023.resourceful-1.7.pdf]]>
40959b78-712c-426f-9a02-f13a86ad26c2
1.0
Korpora
NB
Nasjonalbibliotek
norsk
speech corpus
speech data
taledata
talekorpus
2019-01-08T00:00:00
2023-11-15T00:00:00
Språkbanken
Nasjonalbiblioteket Norge AI-Lab
Context-Aware-Splitter
Context-aware-splitter er en model til retrieval augmented generation. Modellen er udviklet til at opdele tekster på den mest optimale måde givet en kontekst.
Opdeling af tekster er vigtigt ift. retrieval augmented generation, da de skal bruges til at finde de relevante stykker tekst frem.
Modellen er trænet på mhenrichsen/context-aware-splits, som er et datasæt genereret vh.a. DanskGPT.
1ecc5798-f979-4437-9433-14690281fccd
RAG
Retrieval
augmented
danskGPT
generation
2023-09-17T00:00:00
2023-09-19T00:00:00
Context-Aware-Splits
Datasæt genereret vh.a. DanskGPT og brugt til at træne modellen Context-Aware-Splitter.
Context-aware-splitter er en model til retrieval augmented generation. Modellen er udviklet til at opdele tekster på den mest optimale måde givet en kontekst.
Opdeling af tekster er vigtigt ift. retrieval augmented generation, da de skal bruges til at finde de relevante stykker tekst frem.
74147de6-3227-42a2-bb60-59101ee58a0e
RAG
Retrieval
augmented
danskGPT
generation
2023-09-17T00:00:00
2024-01-12T12:54:46.827042
Mads Henrichsen
Retsinformation
Retsinformation.dk er indgangen til det fælles statslige retsinformationssystem, der giver adgang til alle gældende love, bekendtgørelser og cirkulærer m.v. Der er også adgang til Folketingets dokumenter og beretninger fra Folketingets Ombudsmand. Informationsleverandørerne er Folketinget, Folketingets Ombudsmand, Rigsrevisionen og samtlige ministerier.
Tilgå de enkelte tekster på Retsinformation.dk i XML-format ved: www.retsinformation.dk/eli/accn/[accesionsnummer]/xml. API giver indgang til JSON-fil, hvor fra acessionsnummer kan findes for dokumenter, der er blevet ændret inden for de seneste 10 dage.
Alternativt kan man åbne en specifik tekst på retsinformation i XML ved at tilføje /xml bagerst url'en.
[Læse mere om betingelser for anvendelse af Civilstyrelsens åbne data](https://www.retsinformation.dk/api)
Du kan finde et korpora bestående af det teksmæssige indhold på retsinformation.dk tilbage i 2019 [her](https://sprogteknologi.dk/dataset/f8f993b6ac7b11e9a7e100155d02670627ece4f652a84074ac423f1d726701c1).
DAILY
Jura
Lovgivning
Tekst
1985-01-01T00:00:00
2023-12-22T10:41:13.588378
https://www.retsinformation.dk/eli/about
Civilstyrelsen
Civilstyrelsen
Navne i hele befolkningen (top-20)
Igennem flere år har efternavnet Jensen ligget på 1. pladsen på top-20-listen over anvendte efternavne i hele befolkningen. For kvinder er det mest anvendte fornavn Anne, og for mænd er det Peter. Statistikken er en opgørelse af navne for hele befolkningen, der boede i Danmark pr. 1. januar. Statistikken anvender oplysninger om første fornavn samt sidste efternavn - altså ikke mellemnavne. Er dit fulde navn fx Dorthe Høst Larsen, vil du være registreret under henholdsvis Dorthe og Larsen. Efternavne sammensat med bindestreg – fx Høst-Larsen – tæller som ét efternavn. Grundlaget for statistikken er data fra CPR. Statistikken om navne for hele befolkningen er årlig og offentliggøres i midten af januar måned.
Kilde: Danmarks Statistik - https://www.dst.dk/da/Statistik/emner/befolkning-og-valg/navne/navne-i-hele-befolkningen. Læs om licens og ansvar her: https://www.dst.dk/da/Statistik/brug-statistikken
https://data.gov.dk/concept/core/lang-resource-type/LexicalConceptualResource
Tekst
2020-05-13T15:24:59.313148
2023-12-01T11:53:00.260965
Danmarks Statistik, Befolkning og Uddannelse, Personstatistik - Dorthe Larsen
Danmarks Statistik
Fornavne og efternavne i befolkningen i Danmark
Digitaliseringsstyrelsen udgiver et datasæt med Danmarks Statistiks lister over for- og efternavne for hele befolkningen i Danmark per januar 2020. Datasættet består af tre adskilte lister med fornavne på henholdsvis kvinder og mænd samt efternavne. Datasættet må anvendes med angivelse af kildehenvisning til Danmarks Statistik. Kilde: Danmarks Statistik - https://www.dst.dk/da/Statistik/emner/befolkning-og-valg/navne/HvorMange. Læs om licens og ansvar her: https://www.dst.dk/da/Statistik/brug-statistikken
834e009d-46eb-463c-90fe-c7c9663e9492
https://data.gov.dk/concept/core/lang-resource-type/LexicalConceptualResource
Tekst
2020-06-08T13:53:46.862371
2023-12-01T11:52:50.830396
Danmarks Statistik, Befolkning og Uddannelse, Personstatistik - Dorthe Larsen
Digitaliseringsstyrelsen
Sundhedsvæsenets begrebsbase (NBS)
Begrebsbasen udarbejdes af det Nationale Begrebsarbejde for Sundhedsvæsenet (NBS). Formålet med begrebsbasen er at skabe en fælles forståelse for sundhedsfaglige begreber på tværs af sundhedsvæsenet.
Begrebsbasen indeholder begreber inden for udvalgte, centrale sundhedsfaglige emneområder. Begreberne og de tilhørende definitioner stilles her til rådighed for det danske sundhedsvæsen og andre interesserede parter.
De standardiserede begreber er en reference, som de begreber, der anvendes i sundhedsvæsenet, kan sammenlignes med. Det gør, at man kan blive opmærksom på betydningsforskelle og dermed kan blive mere præcis i sin anvendelse af begreberne.
Definitionerne i Begrebsbasen er udarbejdet med henblik på entydigt at afdække det enkelte begrebs betydning, så det kan anvendes tværfagligt i sundhedsvæsenet uden tilknytning til særlige processer eller metoder. Begreberne er udarbejdet ved hjælp af terminologiske principper og metoder, der er med til at sikre den sproglige og betydningsmæssige præcision.
dcf251ae-404a-47ef-9c54-c6d47ab8db8b
Sundhedsdatastyrelsen
2021-05-17T12:28:17.261329
2023-12-01T11:52:04.098175
NBS - begrebssekretariatet
Sundhedsdatastyrelsen
Regnskabsdata
Nye og historiske regnskabsdata offentliggjort via Erhvervsstyrelsen.
Samtlige selskaber i Danmark skal indberette deres årsrapport (regnskab) til Erhvervsstyrelsen. Regnskaber kan indberettes i tre formater XBRL, PDF og på papir. Langt de fleste selskaber indberetter regnskaber digitalt (PDF og XBRL), mens enkelte selskaber er fritaget for digital indberetning og kan indberette på papir. PDF-regnskabet er det juridisk gyldige regnskab, mens XBRL-formatet er den internationale digitale standard for kommunikation af finansielle data.
Samlingen af digitale årsrapporter kan tilgås via API.
Licens: https://datacvr.virk.dk/data/cvr-hj%C3%A6lp/om-cvr/vilk%C3%A5r-og-betingelser
CONT
https://data.gov.dk/concept/core/lang-resource-type/Corpus
Tekst
2020-05-16T09:25:09.946897
2023-12-01T11:51:06.409426
Erhvervsstyrelsen
ERST
Folketingets Åbne Data
Folketingets åbne data omfatter:
* metadata om sager og dokumenter i det parlamentariske arbejde i Folketingssalen samt udvalg fra oktober 2013 og fremefter. Herunder data om Folketingets og udvalgenes sammensætning i de forskellige perioder samt møder.
* data om dokumenter indeholder links til PDF-filer på ft.dk, som viser selve dokumentet.
* data om aktuelle Folketingsmedlemmer indeholder et felt med medlemmets biografi i XML-format.
* referater af Folketingets forhandlinger i XML-format.
Folketingets åbne data er tilgængelige via Odata-protokollen. Det er en åben protokol, som giver adgang til at få data leveret i ATOM format (XML) eller JSON format.
Udgivet under følgende licensbetingelser: https://www.ft.dk/da/dokumenter/aabne_data
Se også brugsvilkår for åbne data: https://www.ft.dk/da/dokumenter/aabne_data
CONT
https://data.gov.dk/concept/core/lang-resource-type/Corpus
Tekst
2014-09-01T00:00:00
2023-09-28T07:09:28.276712
Folketingets åbne data overholder standarden for Odata ver. 3.0 og er desuden tilgængelige i MS SQL backup-format. Referater er tilgængelige som XML.
Folketinget
Folketinget
Klimarådets udgivelser
Klimarådet er et uafhængigt ekspertorgan, der rådgiver regeringen om, hvordan omstillingen til et klimaneutralt samfund kan ske, så vi i fremtiden kan leve i et Danmark med meget lave udledninger af drivhusgasser og samtidig fastholde bl.a. velfærd og udvikling. Klimarådet skal årligt vurdere, om regeringens klimaindsats anskueliggør, at de danske klimamål nås. Rådet skal desuden bidrage til den offentlige debat og udarbejder også løbende analyser og anbefalinger til klimaindsatsen. Klimarådet udgiver i løbet af året rapporter, analyser og høringssvar. Samtlige tekstmaterialer publiceres på Klimarådets hjemmeside i, herunder også baggrundsnotater udarbejdet i forbindelse med udarbejdelsen af materialerne.
Samtlige udgivelser udgives i PDF, hvorfor det kan være nødvendigt at efterbehandle data.
a40d20a8-2178-456c-91c0-8174e8405fda
Klima
Tekst
tekstdata
2023-09-04T09:37:13.523673
2023-09-21T12:24:24.843540
Klimarådet
Klimarådets virkemiddelkatalog
Klimarådet er et uafhængigt ekspertorgan, der rådgiver regeringen om, hvordan omstillingen til et klimaneutralt samfund kan ske, så vi i fremtiden kan leve i et Danmark med meget lave udledninger af drivhusgasser og samtidig fastholde bl.a. velfærd og udvikling. Klimarådet skal årligt vurdere, om regeringens klimaindsats anskueliggør, at de danske klimamål nås. Rådet skal desuden bidrage til den offentlige debat og udarbejder også løbende analyser og anbefalinger til klimaindsatsen.
Baseret på rådets hidtidige analyser giver Klimarådet med sit virkemiddelkatalog et samlet overblik over rådets anbefalinger til klimapolitik til dato. Klimarådet tager i sit virkemiddelkatalog udgangspunkt i samfundet, som vi kender det i dag. Virkemidler er defineret som tiltag, der er handlingsorienterede og bidrager til, at klimaindsatsen sker på en hensigtsmæssig måde.
61e71eb2-4f67-47cd-bdac-fa875a76739b
Klima
Klimarådet
Tekst
tekstdata
2023-09-04T09:47:42.164844
2023-09-20T13:28:29.981631
Klimarådet
Klimarådet
Named Entity Recognition dataset til Danske juridiske tekster
Named entity recognition dataset til Danske juridiske tekster er et datasæt bestående af 2415 sætninger fra dokumenter i domsdatabasen. Disse dokumenter er annoteret med 8 domænespecifikke entiteter: Organisation, person, dato, lokation, lov, retsinstans, dommer og advokat. Datasættet er udarbejdet i forbindelse med et bachelorprojekt.
d306cdb4-314c-4a76-aeb0-40eb7085a885
Named Entity Recognition
danske juridiske tekster
named entities
2022-11-25T00:00:00
2022-11-29T00:00:00
Karl-Emil Bruhn Poulsen
Danske Taler
Danske Taler er en levende samling, der konstant udvides med aktuelle taler.
Vi indfanger og transskriberer de afgørende og definerende øjeblikke, hvor politikere, debattører og almindelige borgere griber ordet, fordi noget vigtigt trænger sig på og må siges. Det er de øjeblikke, hvor historien skifter retning, samfundsmæssige kriser skal afværges, og store succeser hyldes.
Danske Taler er Danmarks største talesamling og rummer over tusinde taler holdt på dansk eller holdt om eller i Danmark. Samlingen er frit tilgængelig som en direkte indgang til dansk talekunst fra ca. 1850 og frem til i dag.
Samlingens kerne udgøres af de talemanuskripter, der har dannet afsæt for den mundtlige fremførelse, og som suppleres med transskriptioner af det talte ord. Nyere manuskripter er typisk tekstdokumenter, som vi har modtaget direkte fra taleren, eller som taleren selv har publiceret. Ældre manuskripter er typisk hånd- eller maskinskrevne taler, som vi har fundet i Rigsarkivet, samtidige aviser eller forskellige former for tekstsamlinger. Vi arbejder desuden på at oprette et arkiv over lyd- og videofiler, så talerne levendegøres i gestik og stemmeføring.
Størstedelen af talerne betragtes som offentlige, da er afholdt offentligt til drøftelse af almene spørgsmål, og kan derfor frit benyttes. Taler, som ikke er afholdt offentligt, men hvor taleren har givet samtykke til, at manuskriptet må indgå i vores samling, må ikke gengives i fuld længde af tredjeparter, men skal citeres iht. citatretten. De ophavsrettigheder, der gælder for en given tale, fremgår af den enkelte tale på dansketaler.dk.
Du finder yderligere oplysninger om udgivelsesprincipper, ophavsret og metadata på vores hjemmeside.
https://data.gov.dk/concept/core/lang-resource-type/Corpus
Tekst
2020-05-14T07:00:22.982792
2023-07-21T10:03:11.896243
Danske Taler
Danske Taler
Komplet udtræk af Retskrivningsordbogen
Komplet XML-opmærket ordbog med alle bøjede former og grammatiske oplysninger, orddeling af opslagsord, eksempler, mv. Må kun bruges integreret i sprogteknologiske produkter, dvs. stavekontroller, spil, søgemaskiner mv., og ikke må udgives som selvstændige ordbogsprodukter. Skriv til adm@dsn.dk.
https://data.gov.dk/concept/core/lang-resource-type/LexicalConceptualResource
Tekst
2018-01-01T00:00:00
2023-06-19T20:59:01.195507
Dansk Sprognævn
Dansk Sprognævn
Danish Summarisation
Danish Summarisation er en model til automatisk opsummering af tekst (automatic abstrasctive text summarisation). Modellen er domæne specifik for danske nyhedsartikler. Modellen er fine-tuned på en renset delmængde fra datasættet DaNewsroom. Modellen er evalueret både kvantitativt og kvalitativt ved brug af ROUGE og BERTScore og ved at få mennesker til at rangere opsummeringerne.
c890c59b-c95e-4ad4-bcef-1be54f6f1765
Danish
automatic summarisation
natural language processing
transformers
2023-11-04T00:00:00
2023-06-09T08:40:43.813237
Sara Kolding
Ha&te
Repository, som indeholder kode og modelvægtene til Ha&te algortimen. Den er udviklet af Analyse og Tal F.M.B.A. med støtte fra TryghedsFonden.
Algoritmen er designet til at klassificere små tekststykker efter om de indeholder hadfuldt sprog. Den er blevet brugt til at finde hadfuldt sprog i den offentlige debat, et arbejde som man kan læse om her. En let tilgængelig beskrivelse af hvordan algoritmen er blevet til kan findes [i denne artikel](https://strapi.ogtal.dk/uploads/966f1ebcfa9942d3aef338e9920611f4.pdf).
Algortimen er designet til at bruges i kombination med A&ttack algortimen."
e306f8b6-6b1f-44eb-8755-666d039e9f0d
https://data.gov.dk/concept/core/lang-resource-type/Tool
Analyse og Tal
Attack
Dansk
Hate
NLP
algoritme
sentiment analysis
værktøj
2021-07-12T10:20:42.173475
2023-04-17T08:46:58.055791
Ronnie Taarnborg og Edin Lind Ikanovic
Analyse og Tal
A&ttack
Repository som indeholder kode og modelvægtene til A&ttack algortimen. Den er udviklet af Analyse og Tal F.M.B.A. med støtte fra TryghedsFonden.
Algoritmen er designet til at finde sproglige angreb i korte tekststykker. Den er blevet brugt til at finde sproglige angreb i den offentlige debat, et arbejde som man kan læse om her. En let tilgængelig beskrivelse af hvordan algoritmen er blevet til kan findes [i denne artikel](https://strapi.ogtal.dk/uploads/966f1ebcfa9942d3aef338e9920611f4.pdf)
4cf6692f-2bbc-423e-b2b8-e1847a7edc86
https://data.gov.dk/concept/core/lang-resource-type/Tool
Analyse og Tal
Attack
Dansk
Hate
NLP
algoritme
sentiment analysis
værktøj
2021-07-12T10:21:00.981796
2023-04-17T08:46:24.249277
Ronnie Taar og Edin Lind Ikanovic
Alvenir Wav2vec2
En word2vec2 model, som er trænet på omtrent 1300 timers dansk taledata fra podcasts og lydbøger. Modellen er trænet på 16kHz taledata, hvilket også er formatet, der skal anvendes ved brug af modellen.
Det er Alvenir, som har skabt modellen og stillet den til rådighed for offentligheden. Modellen skal fin-tunes før den kan anfvendes til talegenkendelse.
Udgivet under en Apache 2.0 licens.
2ef12568-2797-4586-8d02-f7ec8dfcca43
https://data.gov.dk/concept/core/lang-resource-type/Tool
NLP
Sprogmodel
lyd
model
speech
tale
talegenkendelse
2021-11-28T00:00:00
2023-03-15T13:13:56.783698
Alvenir
Nota lyd- og tekstdata
Datasættet indeholder både tekst- og taledata fra udvalgte dele af Nota's lydbogsbibliotek. Datasættet består af over 500 timers oplæsninger og medfølgende transskriptioner på dansk. Al lyddata er i .wav-format, mens tekstdata er i .txt-format.
I data indgår indlæsninger af Notas eget blad "Inspiration" og "Radio/TV", som er udgivet i perioden 2007 til 2022.
Nota krediteres for arbejdet med at strukturere data, således at tekst og lyd stemmer overens.
Nota er en institution under Kulturministeriet, der gør trykte tekster tilgængelige i digitale formater til personer med synshandicap og læsevanskeligheder, fx via produktion af lydbøger og oplæsning af aviser, magasiner, mv.
[ReadMe](https://sprogtek-ressources.digst.govcloud.dk/nota/Readme.txt)
Alvenir har lagt datasættet på Hugging Face, så du også kan tilgå data via Hugging Face. Du finder adgang til datasættet på Hugging Face under distributionerne.
9ee5a70f-1b6c-4397-80eb-fbf0169de9c1
publications.europa.eu/resource/authority/frequency/UNKNOWN
ASR
Data
Lyd
Lyddata
Nota
Oplæsnings
Tale
Taledata
2022-07-10T00:00:00
2022-04-26T00:00:00
Digitaliseringsstyrelsen
Terminologi på skatteområdet
Terminologien er resultatet af begrebsafklaring på skatteområdet (knap 100 skattebegreber på dansk og engelsk), som blev foretaget i 2012, og som udgjorde det eksperimentelle grundlag for brugerforsøg.
Kilderne er primært Skatteministeriets lovgrundlag og juridiske vejledninger (dvs. Retsinformation og SKAT); Finansministeriet (Forslag til Finanslov 2012 (§38)); Danmarks Statistik (Skatter og afgifter 2012); Eurostat (Taxation Trends in the European Union 2012) samt OECD (Glossary of Tax Terms). Terminologien udstilles som en ordbog, der omsætter en hovedkonklusion fra ph.d.-afhandlingen ”Knowledge Dissemination Based on Terminological Ontologies: Using Eye Tracking to Further User Interface Design” (2015): Alle brugere kan forstå både artikler (tekst i tabel) og diagrammer (uddrag af terminologiske ontologier). Den enkelte ordbogsartikel er derfor forsynet med en lille figur, som viser et relevant udsnit af ontologien med relaterede termer.
__Skattebegreberne er ikke officielle godkendte begreber fra Skatteforvaltningen, men begrebsafklaringen er udarbejdet gennem en kombination af forskellige autoritative kilder. __
973f830e-01ef-40d3-8950-c1c4dedc113f
afgifter
det danske skattesystem
skatter
PhD Series, No. 18.2015
2022-12-19T00:00:00
ISO (2000). Terminology Work - Vocabulary. Part 1: Theory and application (1087-1). ISO (2009). Terminology work - Principles and methods (704)
Louise Pram Nielsen
2012-01-01T00:00:00
2012-01-01T00:00:00
Alvenir punctuation restoration
Et nemt og tilgængeligt værktøj, som automatisk sætter punktum og komma i fritekst. Værktøjet understøtter både dansk, engelsk og tysk.
Værktøjet er udviklet af Alvenir.
b47b1c48-d31d-4b7b-815a-ddd7fec00c42
NLP
Tegnsætning
Tekstbehandling
dansk
engelsk
supportværktøj
tysk
2022-03-24T00:00:00
2023-02-27T09:37:32.914945
Alvenir
Alvenir
Alvenir ASR evalueringsdata
Dansk taledata fra Alvenir, som særligt kan bruges til at evaluere ASR modeller på dansk. Datasættet består af ca. 5 timers tale indtalt af 50 talere mellem 20 - 60 år. Lydfilerne udgives i .wav og der er tilhørende referencetekst til lyden. Data kan også anvendes til at træne modeller på, men datamængden er begrænset.
10d5d02d-fae9-462a-88fe-6b2ee95fe01c
ASR
Dansk
Tale
Talegenkendelse
evaluering
lyd
tale
taledata
2022-04-04T00:00:00
2023-02-27T09:37:17.354254
Alvenir
Alvenir
Jysk Ordbog
Jysk Ordbog (a-h) dækker over jyske dialekter i perioden 1700-1920. Størstedelen af ordbogens kilder afspejler jysk dialekt og landbokultur i perioden 1850-1920. Ordbogen indeholder information om ordene, som dækker over 1) udtale, 2) bøjning, 3) betydning(er), 4) område og 5) proveniens. Datapakken på CLARIN er fra 2011, men ordbogen bliver fortsat redigeret den dag i dag. Hvis man ønsker en nyere udgave, kan man kontakte Jysk Ordbog enten ved at sende en mail til mms@cc.au.dk eller via følgende side http://jyskordbog.dk/jyskordbog/ordbog.html.
972921b8-4927-4d51-a011-c775775c899e
dialekt
jysk
ordbog
sprogforståelse
2011-04-17T00:00:00
2023-02-27T08:36:56.478942
Mette-Marie Møller Svendsen
1700-01-01T00:00:00
1920-01-01T00:00:00
The Danish Parliament Corpus 2009 - 2017, v2, w. subject annotation
The Danish Parliament Corpus 2009 - 2017, v2, w. subject area annotation indeholder udskrifter af taler holdt i Folketinget, session 20091 til 20161 (6/10 2009 - 7/9 2017) og er downloadet fra Folketingets ftp servcer: ftp://oda.ft.dk. Korpusset har metadata om Folketingets medlemmer (navn, køn, alder, rolle, titel, partipolitisk tilhørsforhold), tidspunkt for talerne og subject area annotion for hver dagsorden. Informationen omkring alder og køn er blevet hentet fra eksterne kilder, og subject area annotation blev semi-automatisk tilføjet til hver tale ud fra de annoterede titler på dagsordenerne. Korpusset er organiseret i txt-filer, hvor der der er en fil pr. møde og en zip-fil per session. Korpusset The Danish Parliament Corpus 2009 - 2017 følger licensen for Open Data med angivelse af følgende: "Folketinget tillader en global, fri, ikke-eksklusiv og uindskrænket ret til brug af data fra Folketingets åbne datakatalog. Dataene kan frit benyttes til: 1) kopiering, distribuering og udgivelse, 2) tilpasning og i kombination med andet materiale, 3) til kommercielt og ikke-kommercielt brug." Derudover kan, med overholdelse af ophavsretsloven, talerne blive distribueret uden samtykke fra taleren så længe taleren af teksten/talen er tydeligt angivet. Folketinget er anerkendt som kilden.
b606c41a-b2a7-450e-abf8-691e807ea54e
parliament records
politics
2021-01-01T00:00:00
2023-02-20T14:06:01.142676
Dorte Haltrup Hansen og Constanza Navarretta
Lyd fra Folketinget
Lyd fra alle optagelser fra Folketingets møder i Folketingssalen samt fra høringer og samråd. Lydoptagelserne er identiske med lyden fra tv-optagelserne fra møderne.
Du kan finde podcast fra Folketinget via iTunes, Spotify, TuneIn og mange andre podcast-udbydere. Podcast fra Folketinget kan også høres direkte via rss-feeds. Udgivet under følgende licensbetingelser: https://www.ft.dk/da/aktuelt/tv-fra-folketinget/deling-og-rettigheder.
Se også brugsvilkår for åbne data: https://www.ft.dk/da/dokumenter/aabne_data
publications.europa.eu/resource/authority/frequency/CONT
https://data.gov.dk/concept/core/lang-resource-type/Corpus
Tale
2010-10-01T00:00:00
2023-02-20T14:05:43.780305
Lydformat er mp3 128 kbps.
Folketinget
Folketinget
TV fra Folketinget
TV-optagelser og livetransmissioner fra alle Folketingets møder i Folketingssalen samt fra høringer og samråd.
Udgivet under følgende licensbetingelser: https://www.ft.dk/da/aktuelt/tv-fra-folketinget/deling-og-rettigheder. Se også brugsvilkår for åbne data: https://www.ft.dk/da/dokumenter/aabne_data
CONT
https://data.gov.dk/concept/core/lang-resource-type/Corpus
ASR
dansk
sprogmodel
tale
talegenkendelse
taleteknologi
2022-09-20T12:15:24.471638
2023-02-20T14:05:27.463966
Folketinget
Referater fra Folketinget
Referater af Folketingets forhandlinger i XML-format.
Udgivet under følgende licensbetingel-ser: https://www.ft.dk/da/dokumenter/aabne_data
CONT
https://data.gov.dk/concept/core/lang-resource-type/Corpus
FT
dansk
folketinget
sprogmodeller
tekst
tekstdata
2010-10-01T00:00:00
2023-02-20T14:04:55.971312
Folketinget
Folketinget
Danske Stednavne
Danske Stednavne er det officielle register for stednavne i Danmark og indeholder stednavne på alt lige fra træet Kongeegen og byen Centrum til øen Fyn. Der er cirka 140.000 danske stednavne i alt, som alle er registreret med en geografisk placering. Det kan være et punkt, en linje eller et område, der beskriver stednavnets geografiske udbredelse. Ca. 25.000 af stednavnene er autoriseret af Kulturministeriet efter indstilling fra Stednavneudvalget, og dette fremgår af en statusværdi.
547d780a-5af0-47df-93c8-84a94cc29e30
navnegenkendelse
2015-03-26T00:00:00
2023-02-03T14:09:53.451530
https://sdfe.dk/media/2920184/featurekatalog-stednavne20_v4.pdf
http://publications.europa.eu/resource/authority/country/DNK
Danmarks Administrative Geografiske Inddeling (DAGI)
Danmarks Administrative Geografiske Inddeling (DAGI) er et standardiseret referencedatasæt, som viser landets administrative inddelinger. DAGI-datasættet er ikke færdige korttemaer, men DAGI-data kan sammenstilles med andre data til slutbrugerprodukter eller indgå i forskellige tjenester. DAGI-datasættet indeholder inddelingerne: Danmark, Regionsinddeling, Landsdel, Kommuneinddeling, Sogneinddeling, Opstillingskreds, Storkreds, Valglandsdel, Politikreds, Retskreds, Postnummerinddeling, Supplerende Bynavn, Afstemningsområde og Menighedsrådsafstemningsområde.
207b4b1a-03ea-486d-adea-fc40ef643c2f
CONT
navnegenkendelse
2020-11-13T14:03:30.048889
2023-02-03T14:07:09.531205
https://sdfe.dk/media/2919047/dagi_objektspecifikation_20_public.pdf
http://publications.europa.eu/resource/authority/country/DNK
Danmarks Adresseregister (DAR)
Der er registreret ca. 3,5 millioner adresser i DAR og ca. 110.000 vejnavne. Der blev i 2017 oprettet ca. 52.000 nye adresser og 400 nye vejnavne, desuden ændres og nedlægges et antal adresser og vejnavne hvert år.
En adresse består af vejnavn, husnummer og postnummer. Ligger en adresse i en bygning med flere funktioner (fx flere boliger eller lejemål), kan den være suppleret af en etagebetegnelse og en dørbetegnelse. I nogle tilfælde er adressen, ud over postnummeret, forsynet med et ”supplerende bynavn” som ofte er navnet på den by eller landsby, som adressen ligger i inden for postnummeret.
Vejnavne skal være entydige inden for et postnummer, og et vejnavn skal være entydigt inden for en 15 kilometer radius i samme postnummer. Dette for at sikre, at to adresser ikke forveksles.
99c7068b-d6e8-4090-add7-b7c6f7562927
continual
2018-05-07T00:00:00
2023-02-03T13:30:05.490427
dan
Styrelsen for Dataforsyning og Infrastruktur
Styrelsen for Dataforsyning og Infrastruktur
Ordia
Ordia er en frontend/webapplikation, som udstiller Wikidatas leksikografiske data på en let, overskuelig og tilgængelig måde. Du kan bruge Ordia til at finde oplysninger om en lang række danske ord, fx sammensætninger, betydninger og afledninger af ordet.
f87fb023-17eb-4e71-9bf2-054b03bda132
publications.europa.eu/resource/authority/frequency/IRREG
Wikidata
leksikalsk ressource
ord
2023-01-27T10:05:24.041851
2023-01-30T14:00:50.696753
Finn Årup Nielsen
XLS-R-300m-danish
XLS-R-300m-danish er en general dansk talemodel der bygger på wav2vec2.0 arkitekturen og er en fortsat prætræning af [XLS-R checkpointet](https://arxiv.org/abs/2111.09296). Modellen er trænet på 141.000 timers dansk tale fra DR P1 og Radio24syv, og kan finetunes til alle formål der indebærer analyse af dansk tale.
Efter finetuning performer modellen omtrent 20% bedre end XLS-R og 50% bedre end wav2vec2-base-da på dansk talegenkendelse. [Klik her for at læse mere om den fintuned model](https://sprogteknologi.dk/dataset/xls-r-300m-danish-nst-cv9).
Modellen er trænet af [Lasse Hansen](https://lassehansen.me/) fra [Center for Humanities Computing Aarhus](https://chcaa.io/#/) i samarbejde med [Alvenir](https://www.alvenir.ai/) på UCloud platformen.
b11fbe36-b29f-45c6-ad4f-b2d64dd02e75
ASR
Talegenkendelse
XLS
dansk
sprogmodel
tale
taleteknologi
2022-08-15T00:00:00
2022-08-15T00:00:00
Lasse Hansen
Center for Humanities Computing Aarhus
The Norwegian Colossal Corpus
"The Norwegian Colossal Corpus (NCC) is a collection of multiple smaller Norwegian corpuses suitable for training large language models. We have done extensive cleaning on the datasets, and have made them available in a common format. The total size of the NCC is currently 45GB."
Bemærk, at NCC består af en samling af forskellige dataset, som er udgivet med forskellige licensbetingelser. [Via dokumentationen for NCC](https://github.com/NbAiLab/notram/blob/master/guides/corpus_description.md) kan du hurtigt få en oversigt over de forskellige licenser for de enkelte data.
d447b3e1-1a1d-4f73-b132-44f7f95cb9ba
Korpora
NB
colossal
corpus
norsk
scandinavien
text
2021-11-24T00:00:00
2022-01-21T00:00:00
Nasjonalbiblioteket Norge AI-Lab
XLS-R-300m-danish-nst-cv9
'Finetuned version af [XLS-R-300m-danish til talegenkendelse på dansk](https://sprogteknologi.dk/dataset/xls-r-300m-danish).
Modellen er finetuned på træningssættet af NST ASR og Common Voice 9, og har en word error rate på 5-10% på på tværs af Alvenir, NST og Common Voice 9 test sættene. Modellen performer omtrent 20% bedre end XLS-R og 50% bedre end wav2vec-base-da finetuned på samme datasæt.
Modellen er trænet af [Lasse Hansen](https://lassehansen.me/) ved [(Center for Humanities Computing ved Aarhus Universitet)](https://chcaa.io/#/) i samarbejde med [Alvenir](https://www.alvenir.ai/).
7ac8193d-4252-4445-b783-1784c9c48794
ASR
Talegenkendelse
dansk
sprogmodel
tale
taleteknologi
xls
2022-08-15T00:00:00
2022-08-15T00:00:00
Lasse Hansen
Center for Humanities Computing Aarhus
Bornholmsk Ordbog
Bornholmsk Ordbog er en digital samling af en række bornholmske glossarer og ressourcer, herunder bornholmsksprogede tekster. Ordbogen er en metaordbog, der forener en række glossarer i én database, så man fra én søgning kan slå op i dem alle og få et samlet resultat med relevante artikler fra alle glossarer, som indeholder søgeordet. Metaordbogen og øvrige ressourcer forbedres løbende (ofte dagligt).
3e871bbe-6e60-4e89-a83c-c739f40137ed
Ordbog
bornholmsk
da-bornholm
dialekt
sprogforståelse
2021-01-03T00:00:00
2023-01-09T09:02:23.296662
Alex Speed Kjeldsen
DGT-Translation Memory
DGT-TM er en oversættelseshukommelse (sætninger og deres manuelt fremstillede oversættelse) på 24 sprog. Den indeholder segmenter fra den gældende fællesskabsret – EU-lovgivningen – som består af alle traktater, forordninger og direktiver vedtaget af EU. Hver nyt land, som bliver medlem af EU, skal acceptere hele fællesskabsretten, og denne lovgivning er derfor oversat til de 24 officielle EU-sprog. For det 23. officielle EU-sprog, irsk, oversættes fællesskabsretten ikke regelmæssigt, og derfor indeholder DGT-TM kun få oversættelser til irsk. Med 2014-udgaven af DGT-TM blev oversættelsen til det 24. officielle EU-sprog, kroatisk, tilføjet.
2018
corpus
language-application
language-technology
tmx
translation-memory
2015-07-27T00:00:00
2018-09-06T00:00:00
2004-01-01T00:00:00
2018-01-01T00:00:00
10.000 mest frekvente lemmaer
Liste over de mest brugte ord i dansk. Indeholder kun opslagsformerne (lemmaformen, fx hus) for ordene - ikke bøjningsformer (fx husene). Frekvensen er beregnet på korpus på ca. 880 mill. med tekster 1983-2016.
Listen findes i to varianter, som er pakket sammen i en zip-fil: 1) De 10.000 mest frekvente lemmaer (ord) i dansk inklusive proprier (egennavne) og numeralier (talord); 2: De 10.000 mest frekvente lemmaer i dansk eksklusive proprier og numeralier. ÅBEN-DSL-LICENS:Ressourcen kan frit downloades idet man derved accepterer en række brugsbetingelser og forpligter sig til at overholde dem
https://data.gov.dk/concept/core/lang-resource-type/LexicalConceptualResource
Tekst
2016-01-01T00:00:00
2023-01-04T15:18:04.121856
DSL
DSL
1983-01-01T00:00:00
2016-01-01T00:00:00
DSL Synonymliste
Genereret automatisk fra Den Danske Ordbog og indeholder synonymer i onlineudgaven juni 2018. Ord + oplysning om 1-2 synonymer (1,6 synonymer pr. ordbetydning i gmsnt.). ÅBEN-DSL-LICENS:Ressourcen kan frit downloades idet man accepterer en række brugsbetingelser og forpligter sig til at overholde dem
https://data.gov.dk/concept/core/lang-resource-type/LexicalConceptualResource
Tekst
2018-01-01T00:00:00
2023-01-04T15:16:54.656669
DSL
DSL
1955-01-01T00:00:00
2018-01-01T00:00:00
KorpusDK
Samling af 3 forskellige korpusser: korpus90, korpus2000, korpus2010 (bemærkning: De dækker hver især årene rundt om 90, 2000 og 2010 (og selve året)) POS-tagget og lemmatiseret.
KODE-DSL-LICENS: Hvis du vil bruge KorpusDK, skal du først sende en anmodning om et kodeord per e-mail til korpus@dsl.dk. Anmodningen skal indeholde en beskrivelse af det eller de formål, du påtænker at bruge korpusset til. I din anmodning skal du desuden erklære, at du accepterer og vil overholde en række brugsbetingelser.
https://data.gov.dk/concept/core/lang-resource-type/Corpus
Tekst
2020-06-19T10:20:52.306622
2023-01-04T15:16:32.277078
DSL
DSL
Fuldformliste fra Ordbog over det danske sprog
Listen indeholder opslagsordene i ODS (og ODS-S) på nettet ordnet.dk/ods samt de bøjningsformer der er registreret til brug for ordbogens søgefunktion. Listen er TAB-separeret og rummer fem felter: bøjningsform, opslagsform, evt. homografnummer, ordklasse og artiklens ID-nr. i ODS/ODS-S.
Denne liste indeholder alle opslagsordene fra Ordbog over det danske Sprog. Ordbog over det danske Sprog (ODS) er en historisk ordbog, der behandler dansk sprog fra 1700 til 1950. Ordbogen indeholder 225.000 opslagsord, heraf 35.000 fra Supplement til ODS. Læs mere om ODS.
Ressourcen er udarbejdet af Thomas Troelsgård.
875dca43-0628-414c-a7ce-74b77631ce66
Dansk
Fuldformliste
ODS
Ordbog over det danske sprog
bøjningsformer
2020-08-01T00:00:00
2020-08-01T00:00:00
Det Danske Sprog- og Litteraturselskab
Det Danske Sprog- og Litteraturselskab
Fuldformliste fra Den Danske Ordbog
En liste som indeholder alle bøjningsformer af opslagsordene i Den Danske Ordbog (DDO). Listen indeholder opslagsordene i DDO på nettet (ordnet.dk/ddo) samt de bøjningsformer, der er registreret til brug for ordbogens søgefunktion.
Listen er TAB-separeret og rummer fem felter: bøjningsform, opslagsform, evt. homografnummer, ordklasse og artiklens ID-nr. i DDO.
Ressourcen er udarbejdet af Thomas Troelsgård.
DDO Beskriver ordforrådet i moderne dansk fra ca. 1955 til i dag og opdateres løbende. Du kan læse mere om DDO's baggrund og tilblivelse på [ordnet.dk](https://ordnet.dk/ddo/forside).
4b8b98bf-3517-4d8d-9873-2788346f31af
DDO
DSL
Dansk
Den Danske Ordbog
bøjninger
opslagsord
ordnet.dk
2020-08-01T00:00:00
2020-08-01T00:00:00
Det Danske Sprog- og Litteraturselskab
Det Danske Sprog- og Litteraturselskab
Lemmaliste fra Ordbog over det danske sprog
Listen indeholder opslagsordene i ODS (og ODS-S) på nettet [ordnet.dk/ods](ordnet.dk/ods). Listen er TAB-separeret og rummer fire felter: opslagsform, evt. homografnummer, ordklasse og artiklens ID-nr. i ODS/ODS-S. Hvis en artikel har flere sideordnede opslagsformer, anføres disse på hver sin linje. Formerne anføres på alfabetisk plads, men med samme ID-nummer.
Denne liste indeholder alle opslagsordene fra Ordbog over det danske Sprog. Ordbog over det danske Sprog (ODS) er en historisk ordbog, der behandler dansk sprog fra 1700 til 1950. Ordbogen indeholder 225.000 opslagsord, heraf 35.000 fra Supplement til ODS. [Læs mere om ODS hjemmesiden herfor](https://ordnet.dk/ods/forside/)
Ressourcen er udarbejdet af Thomas Troelsgård.
c42e9cbc-e3a9-4a75-81ad-8ee53e830bea
Dansk
ODS
Ordbog
Ordbog over det danske sprog
historisk
opslagsord
2020-08-01T00:00:00
2020-08-01T00:00:00
Det Danske Sprog- og Litteraturselskab
Det Danske Sprog- og Litteraturselskab
Lemmaliste fra Den Danske Ordbog
En liste bestående af alle opslagsord (lemmaer) fra Den Danske Ordbog (DDO). Listen er TAB-separeret og rummer fire felter: opslagsord, evt. homogranummer, ordklasse, artiklens ID-nr. Ressourcen er udarbejdet af Thomas Troelsgård.
DDO Beskriver ordforrådet i moderne dansk fra ca. 1955 til i dag og opdateres løbende. [Få mere at vide om DDO's baggrund og tilblivelse](https://ordnet.dk/ddo/forside)
125af8b6-9325-498d-b687-00b728328a23
https://data.gov.dk/concept/core/lang-resource-type/LexicalConceptualResource
DDO
DSL
Den Danske Ordbog
Lemma
Lemmaliste
leksikalsk ressource
ordbog
2022-03-07T09:27:14.979770
2023-01-04T15:14:47.486403
Det Danske Sprog- og Litteraturselskab
Det Danske Sprog- og Litteraturselskab
Fejlformer af danske ord
Liste med hyppige fejlstavninger i dansk, knyttet til deres opslagsord i DDO. Listen indeholder de fejlstavede former af opslagsord og bøjningsformer, der registreres i forbindelse med redigeringen af DDO.ÅBEN-DSL-LICENS: Ressourcen kan frit downloades idet man derved accepterer en række brugsbetingelser og forpligter sig til at overholde dem.
https://data.gov.dk/concept/core/lang-resource-type/LexicalConceptualResource
Tekst
2020-01-01T00:00:00
2023-01-04T15:13:59.109816
DSL
DSL
1955-01-01T00:00:00
2018-01-01T00:00:00
word2vec: Danish DSL and Reddit word2vec word embeddings
Semantiske modeller er trænet på DSL's tekstkorpusser ved hjælp af Python-pakken Gensims. Modellerne er trænet med 500 features, et "vindue" på 5 ord omkring søgeordet og ord, der optræder mindre end 5 gange i korpus, er sorteret fra, og der er anvendt "skip-gram" som træningsalgoritme. Modellen "DSL_skipgram_2020.model" er trænet med et korpus på godt en milliard løbende ord med tekster fra 1983 til og med 2019.Modellerne stilles til rådighed i tre formater. ÅBEN-DSL-LICENS:Ressourcen kan frit downloades idet man accepterer en række brugsbetingelser og forpligter sig til at overholde dem
https://data.gov.dk/concept/core/lang-resource-type/Tool
Tekst
2019-01-01T00:00:00
2023-01-04T15:11:34.200606
DSL
DSL
1983-01-01T00:00:00
2019-01-01T00:00:00
DSL Fuldformsliste
Fuldformsleksikon med samtlige bøjningsformer for 80.000 danske lemmaer samt oplysninger om ordklasse og bøjning. Lemmaerne er indsamlet fra forskellige ældre ordbogskilder fra årene omkring 1990, og deres mulige bøjningsformer er automatisk udledt ud fra de morfologiske oplysninger i kilderne. ÅBEN-DSL-LICENS:I visse tilfælde er oplysningerne blevet automatisk suppleret.Ressourcen kan frit downloades idet man derved accepterer en række brugsbetingelser og forpligter sig til at overholde dem.
https://data.gov.dk/concept/core/lang-resource-type/LexicalConceptualResource
Tekst
1990-01-01T00:00:00
2023-01-04T10:36:20.309473
DSL
DSL
1955-01-01T00:00:00
1990-01-01T00:00:00
Dictionary for the CST Lemmatizer
Binary wordlists for the CST lemmatizer as suplement to the rules of the lemmatizer. Works with both tagged and untagged input. Use: cstlemma -d NAME-OF-WORDLIST
https://data.gov.dk/concept/core/lang-resource-type/LexicalConceptualResource
Paralleltekst
lemmatizer
2013-01-01T00:00:00
2022-12-21T12:11:39.272743
Administrator; CLARIN-DK; Centre for Language Technology, NorS, University of Copenhagen
Centre for Language Technology, NorS, University of Copenhagen
CopCo: The Copenhagen Corpus of Eye-Tracking Recordings from Natural Reading
CopCo er et eye-tracking korpus, som er skræddersyet til både psykolingvistik og natural language processing. Målet er at undersøge læseadfærd af danske tekster hos forskellige befolkningsgrupper. Korpusset indeholder data på øjenbevægelser hos folk med dansk som modersmål, og det er både folk med og uden ordblindhed. Derudover er der også et sæt med folk, som ikke har dansk som modersmål. Dataen indeholder en CSV-fil pr. deltager med eye-tracking målesystemet. Hver fil indeholder teksten, som deltageren har læst med et ord pr. linje. I forhold til ordene samt ordets ID, sætningens ID, og tekstens ID, så indeholder hver fil eye-tracking features for hvert ord, hvilket vil sige: landing position, first fixation duration, first pass duration, go-past time, mean fixation duration, total fixation duration, number of fixations, mean saccade duration og peak saccade velocity. Projektet er blevet godkendt af the Ethics Commission på det Humanistiske Fakultet ved Københavns Universitet. Korpusset indeholder 32 tekster, 36888 tegn og 1943 sætninger.
d3bac04a-1a5c-47a0-93bf-2f8155c8f566
CLARIN
Danish
eye-tracking
læseforskning
multicodal corpora
psycholinguistics
reading
sprogforståelse
2022-06-25T00:00:00
2022-12-13T08:56:19.920813
Nora Hollenstein, Marina Björnsdóttir, Maria Barrett.
Dansk-Ukrainsk-Engelsk Ordbog
Ordbogen ordbog-slovnyk.edition-4 er lavet for at hjælpe ukrainere og danskere i deres kommunikation med hinanden, og den indeholder mere end 3000 hyppige ord samt deres udtale. De 3000 hyppige ord er valgt på baggrund af Det Danske Sprog- og Litteraturselskabs liste over mest frekvente ord. Ordbogen er udarbejdet på frivillig basis af en samling af fageksperter, oversættere og privatpersoner. Myr Slovnyk er valgt som fællesnavn for alle disse personer tilsammen.
Der er ikke copyright på værket, men det må ikke bruges kommercielt.
01160890-0932-4733-a0c3-4ebf9fb45759
Dansk
Dansk-Engelsk
Ordbog
Oversættelse
Ukrainsk
2022-10-01T00:00:00
Ikke angivet
ikke angivet
Peter Bakker
Myr Slovnyk
NST Danish Dictation (22 kHz)
Samling af lydoptagelser i 22 kHz 1 kanal (mono). Stammer fra NST (Nordisk Språkteknologi) som gik konkurs i 2003. Er holdt ajour i den norske sprogbank i Nationalbiblioteket. Licens: https://creativecommons.org/publicdomain/zero/1.0/
"Deldatabasen ADB_D_IBM-D er samlet inn for produksjon av teknologi for akustisk modellering for automatisk diktering (desktop). Opptakene spilt inn ved hjelp av IBM-programvaren ObjectRexx. Opptakene ble gjort i forbindelse med oppstart av samarbeidet mellom NST og IBM som ledd i opplæringsperioden av NST-ansatte. Databasen består av tre deler innspilt til ulike formål, en testdel, en treningsdel og en modelleringsdel. Fordelingen av opptak i delene er som vist i tabellen.
Opptakene er gjort i lukket kontormiljø, og baserer seg på fonetisk balanserte manuskript, produsert på grunnlag av nyhetstekst fra NSTs danske korpus, dvs. avisen Politiken. Opptakene ligger som én lydfil per manuskriptlinje, som tilsvarer en innpilt enhet (setning, frase, enkeltord, tallrekke, bokstavrekke). Databasen er ikke validert, så det foreligger begrenset dokumentasjon."
sbr-20
https://data.gov.dk/concept/core/lang-resource-type/Corpus
Tale
diktering
fonetik
2003-01-01T00:00:00
2003-01-01T00:00:00
Nasjonalbiblioteket
Nationalbibliotektet i Norge
1995-01-01T00:00:00
1999-01-01T00:00:00
NST Danish ASR Database (16 kHz)
Samling af lydoptagelser i 16 kHz. Stammer fra NST (Nordisk Språkteknologi) som gik konkurs i 2003. Er holdt ajour i den norske sprogbank i Nationalbiblioteket. Ligger bl.a. til grund for REALspeak og IBM's talesyntese. Licens: https://creativecommons.org/publicdomain/zero/1.0/
sbr-19
https://data.gov.dk/concept/core/lang-resource-type/Corpus
Tale
2003-01-01T00:00:00
2003-01-01T00:00:00
Språkbanken
Nationalbibliotektet i Norge
NST Danish Speech Synthesis (44kHz)
Samling af lydoptagelser i 44 kHz. Stammer fra NST (Nordisk Språkteknologi) som gik konkurs i 2003. Er holdt ajour i den norske sprogbank i Nationalbiblioteket. Ligger bl.a. til grund for REALspeak og IBM's talesyntese. Licens: https://creativecommons.org/publicdomain/zero/1.0/
sbr-21
https://data.gov.dk/concept/core/lang-resource-type/Corpus
Tale
fonetik
talesyntese
2003-01-01T00:00:00
2003-01-01T00:00:00
Nasjonalbiblioteket
Nationalbibliotektet i Norge
1995-01-01T00:00:00
1999-01-01T00:00:00
ScandiQA
ScandiQA er et datasæt bestående af spørgsmål og svar på dansk, norsk og svensk. Alle samples kommer fra Natural Questions (NQ) datasættet, som er et stort datasæt med spørgsmål og svar fra Googlesøgninger. Det skandinaviske datasæt med spørgsmål og svar kommer fra MKQA-datasættet, hvor 10.000 NQ-samples er blevet manuelt oversat til blandt andet dansk, norsk og svensk.
b669f95f-8e78-430a-80d4-9b33428070cb
MKQA
Natural Questions
Scandinavian questions and answers
2022-01-09T00:00:00
2022-12-12T12:40:27.339180
dansk
svensk
norsk
Dan Saattrup Nielsen
Danish WIT
Datasættet er den danske del af WIT-Base datasættet, som blev udgivet af WikiMedia i 2021. WIT-Base er en modificeret udgave af WIT (Wikipedia Image Text), hvor billeder med tomme "reference beskrivelser" og billeder, hvor en persons ansigts dækker mere end 10% af billedet, fjernes. Derudover slettes upassende billeder. Danish WIT datasættet indeholder omkring 160.000 billeder, som er associeret med danske beskrivelser.
7026f564-6695-428f-a88d-040642927448
Danish WIT
Image-to-Text
WIT-Base
Zero-Shot Image Classification
2022-11-13T00:00:00
2022-12-12T11:25:45.399264
Dan Saattrup Nielsen
Autoriserede stednavne i Danmark
28.000 stednavne i Danmark der har en stavemåde som er autoriseret af Kulturministeriet som gældende retskrivning. Navnene kan fremsøges via applikationen stednavne.info hvis data opdateres af Styrelsen for Dataforsyning og Effektivisering. Bemærk at det kun er de navne som man kan fremsøge via søgefeltet, som har autoriserede former.
https://data.gov.dk/concept/core/lang-resource-type/LexicalConceptualResource
Tekst
2020-05-20T13:12:28.289764
2022-12-12T09:18:27.671352
Navneforskning, NorS, KU
Stednavneudvalget, NorS, KU
WikiMatrix
135 mio parallelsætninger (1620 sprogpar - 85 sprog) fra Wikipedia.
License: The mined data is distributed under the Creative Commons Attribution-ShareAlike license.
Please cite reference [1] if you use this data.
References:
[1] Holger Schwenk, Vishrav Chaudhary, Shuo Sun, Hongyu Gong and Paco Guzman, WikiMatrix: Mining 135M Parallel Sentences in 1620 Language Pairs from Wikipedia arXiv, July 11 2019.
[2] Mikel Artetxe and Holger Schwenk, Margin-based Parallel Corpus Mining with Multilingual Sentence Embeddings arXiv, Nov 3 2018.
[3] Mikel Artetxe and Holger Schwenk, Massively Multilingual Sentence Embeddings for Zero-Shot Cross-Lingual Transfer and Beyond arXiv, Dec 26 2018.
[4] Ye Qi, Devendra Sachan, Matthieu Felix, Sarguna Padmanabhan and Graham Neubig, When and Why Are Pre-Trained Word Embeddings Useful for Neural Machine Translation? NAACL, pages 529-535, 2018.
https://data.gov.dk/concept/core/lang-resource-type/Corpus
Tekst
2020-05-13T15:23:37.059398
2022-12-12T09:14:52.422679
Facebook Research
Facebook Research
DA-EN Danish Ministry of Higher Education and Science
Parallel texts Danish-English from the Danish Ministry of Higher Education and Science, size: 120,000 words, topic: innovation, science
This dataset has been created within the framework of the European Language Resource Coordination (ELRC) Connecting Europe Facility - Automated Translation (CEF.AT) actions SMART 2014/1074 and SMART 2015/1091. For further information on the project: http://lr-coordination.eu.
License: https://elrc-share.eu/static/metashare/licences/CC-BY-NC-4.0.pdf
ELRC_363
2020-05-13T15:24:12.346897
2017-04-04T00:00:00
DA-EN Danish Ministry of Higher Education and Science 3 (Processed)
Parallel texts Danish-English from the Danish Ministry of Higher Education and Science, size 110,000 words, topic: research policy (Processed)
This dataset has been created within the framework of the European Language Resource Coordination (ELRC) Connecting Europe Facility - Automated Translation (CEF.AT) actions SMART 2014/1074 and SMART 2015/1091. For further information on the project: http://lr-coordination.eu.
Attribution Details: This resource was created for the European Language Resources Coordination Action (ELRC) (http://lr-coordination.eu/) by Bolette S. Pedersen, UCPH with primary data copyrighted by Danish Ministry of Higher Education and Science and is licensed under "CC-BY-nc 4.0" (https://creativecommons.org/licenses/by/4.0/)
ELRC_394
2020-05-13T15:24:09.553084
2022-12-12T09:08:59.957789
DK INSPIRE Addresses
It is generally assumed that addresses form up to 80% of the digital solutions used by a modern society.
Access to accurate and up-to-date information on Denmark's addresses is therefore of great value to Danish authorities, to businesses and to citizens.
To ensure that the entire community has access to the same information about Denmark's addresses, all address data is registered in one place, namely in the Danish Register of Addresses. Since it is the municipalities that determine road names and addresses, it is also the municipalities that register the associated data.
The rules also ensure that data is standardized, of fairly uniform quality and that they can be accessed anywhere and without payment.
In connection with the "address program", which was completed in 2018, the state and municipalities have decided to improve the quality and timeliness of address. In connection with the address program's data washing project, the municipalities have improved data, so that address data now lives up to the Address Act. This means, among other things, that all addresses have an access point and that all road names have a road name location.
Personal data - for example, about who lives at the address - is not included in the data contained in the address register. Such information is recorded elsewhere, eg in the CPR, and is protected by law.
The Authority provides a worldwide, free, non-exclusive, and unlimited right of access to data, which is free, inter alia. can: copied, distributed and published, changed and compounded with other material - Used commercially and non-commercially. Data may not be used in such a way that the authority may approve, support, recommend or market the user, the user's products or services. It must be ensured that the use of data is in accordance with Danish law.
50b921ea-935e-d605-2287-4ee364046795
daily
INSPIRE
2020-06-02T00:00:00
2022-12-12T09:05:31.552110
eng
SDFI - FOD
DK INSPIRE Named place
Danish Named Place data contain names on everything from the tree “Konge egen” and the city center to the peninsula Jutland. There are 140,000 Danish Named Places in total, all registered with a geographical location as a point, line or polygon that describes the geographical distribution of the Named place.
The Authority provides a worldwide, free, non-exclusive, and unlimited right of access to data, which is free, inter alia. can: copied, distributed and published, changed and compounded with other material - Used commercially and non-commercially. Data may not be used in such a way that the authority may approve, support, recommend or market the user, the user's products or services. It must be ensured that the use of data is in accordance with Danish law.
557a92cb-8d5a-9957-d480-2cb994184529
continual
stednavne
2015-06-26T00:00:00
2022-12-12T09:02:04.346767
eng
Agency for Data Supply and Infrastructure
SemDaX
The SemDax Corpus is a Danish human-annotated corpus relying on the combined wordnet and dictionary resources: DanNet and Den Danske Ordbog, and available through a CLARIN academic license. The corpus includes approx. 90,000 words, comprises six textual domains, and is annotated with sense inventories of different granularity. All nouns, verbs and adjectives in the corpus were annotated with supersenses (all-words task). Furthermore, 20 very polysemous nouns were annotated with all the senses from the Den Danske Ordbog and a reduced set of clustered senses respectively.
The aim of the developed corpus is twofold: i) to assess the reliability of the different sense annotation schemes for Danish measured by qualitative analyses and annotation agreement scores, and ii) to serve as training and test data for machine learning algorithms with the practical purpose of developing sense taggers for Danish.
To these aims, we take a new approach to human-annotated corpus resources by double annotating a much larger part of the corpus than what is normally seen: for the all-words task we double annotated 60% of the material and for the lexical sample task 100%. We include in the corpus not only the curated files, but also the diverging annotations. In other words, we consider not all disagreement to be noise, but rather to contain valuable linguistic information that can help us improve our annotation schemes and our learning algorithms.
https://data.gov.dk/concept/core/lang-resource-type/Corpus
Tekst
semantics
supersenses
word sense annotations
2015-01-01T00:00:00
2022-12-09T08:30:26.012756
Bolette Pedersen
Centre for Language Technology, NorS, University of Copenhagen
DK-CLARIN Referencekorpus med dansk almensprog
DK-CLARIN Reference Corpus of General Danish has been collected as part of DK-CLARIN project, WP2.1, 2008 - 2011. All texts are in XML TEIP5 format (TEIP5DKCLARIN-format), with tokenisation, ePOS-tagging, sentence and paragraph segmentation, and lemmatisation. The corpus comprises 45,113,245 words.
https://data.gov.dk/concept/core/lang-resource-type/Corpus
Tekst
2011-01-01T00:00:00
2022-12-09T08:20:05.956550
DSL
DSL
NST N-gram - Danish News Text
Dette korpus indeholder n-grammer på dansk afledt af et korpus på 290 millioner ord med danske nyhedsarktikler fra aviserne Berlingske Tidende, Ekstrabladet og Politiken. Aviserne er fra perioden 1995-1999. Korpuset blev oprindeligt udviklet af Nordic Language Technology (NST) i perioden 1997-2003. N-grammerne blev oprettet af Uni Research til det norske nationalbibliotek. Sekvenser på et til seks ord genereres (unigram, bigram, trigram, 4-gram, 5-gram og 6-gram) og sorteres derefter alfabetisk og efter frekvens. Der kan også downloades en forenklet version med de 1000 hyppigste n-grammer af alle ovennævnte typer. Licens: https://creativecommons.org/publicdomain/zero/1.0/
sbr-28
https://data.gov.dk/concept/core/lang-resource-type/Corpus
Tekst
n-gram
nyhedstekst
statistik
2012-11-06T00:00:00
2012-11-06T00:00:00
Nasjonalbiblioteket
Nationalbibliotektet i Norge
1995-01-01T00:00:00
1999-01-01T00:00:00
DanPASS-korpus (Danish Phonetically Annotated Spontaneous Speech)
The DanPASS corpus was developed for research and applied research purposes. It consists of of non-scripted monologues and dialogues, recorded by 27 speakers, comprising a total of 73,227 running words, corresponding to 9 h and 46 min of speech. The monologues were recorded as one-way communication with an unseen partner where the speaker performed three different tasks: (s)he described a network consisting of various geometrical shapes in various colours, (s)he guided the listener through four different routes in a virtual city map, and (s)he instructed the listener how to build a house from its individual pieces. The dialogues are replicas of the HCRC map tasks. Annotation is performed in Praat. The sound files are segmented into prosodic phrases, words, and syllables. The files are supplied, in separate interval tiers, with an orthographical representation, detailed part-of-speech tags, simplified part-of-speech tags, a phonemic notation, a semi-narrow phonetic notation, a symbolic representation of the pitch relation between each stressed and post-tonic syllable, and a symbolic representation of the phrasal intonation.
An extensive description and documentation of the corpus and its numerous resources can be found at https://danpass.hum.ku.dk.
The corpus was presented at the 5th International Conference on Language Resources and Evaluation, Genova 24-24 May 2006.
Note that to open the sound files you need a password. Contact the publisher via email.
IRREG
https://data.gov.dk/concept/core/lang-resource-type/Corpus
Tale
2006-01-01T00:00:00
2016-03-01T00:00:00
Nina Grønnum
KU, NorS
Bornholmersnak
Udtale af ord med bornholmsk dialekt.
BCP-47: da-DK-bornholm.
https://data.gov.dk/concept/core/lang-resource-type/LexicalConceptualResource
Tale
Tekst
Video
2020-06-17T10:36:24.477506
2012-01-01T00:00:00
Bornholmersnak.dk
Bornholmersnak.dk
PAROLE-DK og eParole
PAROLE-DK er et manuelt opmærket korpus som danner en de fakto-standard for POS-opmærkning af mange danske og udenlandske resurser. ePAROLE (udgivet i 2015) er en revideret version af PAROLE-DK. Den adskiller sig fra den ældre version primært ved, at der er brugt et nyudviklet, mere stringent tag-sæt: ePOS. Desuden er en række andre fejl rettet og nogle tekstudsnit skiftet ud.
(Public Domain Mark 1.0)
https://data.gov.dk/concept/core/lang-resource-type/Corpus
Tekst
1998 og 2015
2022-12-08T14:55:03.652104
DSL
DSL
Retskrivningsordbogen som simpel elektronisk ordliste
Liste med alle opslagsord og ordklasser.
https://data.gov.dk/concept/core/lang-resource-type/LexicalConceptualResource
Tekst
2018-01-01T00:00:00
2022-12-08T13:50:07.741600
Dansk Sprognævn
Dansk Sprognævn
Fuldformliste - Retskrivningsordbogen
Liste med alle opslagsord og ordklasser samt alle bøjede ordformer - 'fuldformsliste'. Må kun bruges integreret i sprogteknologiske produkter, dvs. stavekontroller, spil, søgemaskiner mv., og ikke må udgives som selvstændige ordbogsprodukter. Skriv til adm@dsn.dk.
https://data.gov.dk/concept/core/lang-resource-type/LexicalConceptualResource
Tekst
2018-01-01T00:00:00
2022-12-08T13:34:20.595910
Dansk Sprognævn
Dansk Sprognævn
The language and genre of threats
Digitalisering og opmærkning af trusselsbreve til projektet 'Truslers sprog og genre', der bygger på en innovativ kombination af sprogvidenskab og genrestudier med det formål at opnå både detaljerede og gennemgribende indsigter i de sproglige og retoriske træk i trusselsbeskeder. Projektet omfatter dannelsen af en tekstdatabase bestående af autentiske, dansksprogede trusler. Trusselsbrevene kommer fra følgende bog: Jeg er bevæbnet og har tømmermænd. Udvalgte trusselsbreve fra Rigspolitiets arkiv. Robin Engelhardt og Christian Lund (eds.), People’sPress, Denmark, 2008. ISBN: 978-87-7055-490-9
Carlsberg Foundation; CF17-0907; Understanding Threats. Language and Genre; nationalFunds;
License:CLARIN-ACA-NC, see https://repository.clarin.dk/repository/xmlui/page/licenses and https://www.clarin.eu/content/licenses-and-clarin-categories
https://data.gov.dk/concept/core/lang-resource-type/Corpus
Tekst
2020-01-01T00:00:00
2022-12-08T12:49:03.349715
Tanya; Karoli Christensen; Københavns Universitet Department of Nordic Studies and Linguistics
NorS, University of Copenhagen
Medical spelling dictionary (processed)
Medical spelling dictionary with terms in Danish, English and Latin
This dataset has been created within the framework of the European Language Resource Coordination (ELRC) Connecting Europe Facility - Automated Translation (CEF.AT) actions SMART 2014/1074 and SMART 2015/1091. For further information on the project: http://lr-coordination.eu.
Distribution Details
Attribution Details: Terminological resource Medicinsk Retskrivningsordbog by Ib Sewerin licensed for use under CC BY 4.0 license.
ELRC_2496
2020-05-13T15:24:13.393004
2019-08-29T00:00:00
Danish BERT
BERT (Bidirectional Encoder Representations from Transformers) is a deep neural network model used in Natural Language Processing. The network learns the grammar and semantics of human language by training on large bodies of text. Danish BERT focuses on making BERT better for the nordic languages.
This repository provides downloadable weights for a Danish, a Norwegian and a Swedish BERT model trained from scratch. The models can be used in downstream tasks to improve the performance of Nordic Natural Language Processing systems.
https://data.gov.dk/concept/core/lang-resource-type/Tool
Tekst
2020-06-18T10:20:05.287174
2022-12-08T12:35:57.147821
Certainly
Certainly
EUIPO - Trade mark Guidelines (October 2017) (English-Danish) (Processed)
The EUIPO Guidelines are the main point of reference for users of the European Union trade mark system and professional advisers who want to make sure they have the latest information on our examination practices.
They have been drawn up to reflect our Office practice in the most frequent scenarios. They contain general instructions, which have to be adapted to the particularities of a case. They are not legislative texts and, therefore, they are not binding.
Collection of 52 documents in MS Word format drafted in English and translated into 22 EU languages by professional translators.
This dataset has been created within the framework of the European Language Resource Coordination (ELRC) Connecting Europe Facility - Automated Translation (CEF.AT) actions SMART 2014/1074 and SMART 2015/1091. For further information on the project: http://lr-coordination.eu.
ELRC_2013
2020-05-13T15:24:11.350294
2019-03-29T00:00:00
Common Voice (Dansk)
Crowdsourced talekorpus på en lang række sprog. Korpusset er blevet skabt ved, at frivillige har doneret sætninger, oplæsninger af sætninger, samt validering af oplæsninger til korpusset. Korpusset bliver løbende opdateret med nye udgivelser hver tredje måned, såfremt det er muligt.
Korpusset er udgivet under en CC-0 licens.
https://data.gov.dk/concept/core/lang-resource-type/Corpus
Common Voice
Crowdsourced
Mozilla
Tale
Talegenkendelse
Tekst
2022-07-04T00:00:00
2022-12-08T10:54:07.088403
Mozilla
Mozilla
ScandiNER
ScandiNER er en NER (named entity recognition) model, som er bygget på den norske model fra det norske nationalbiblioteks AI labbet. Modellen er fin tunet på et kombineret dansk, norsk (bokmål og nynorsk), svensk, islandsk og færøsk NER datasæt.
SacndiNER opnår state-of-the-art performance i alle 5 sprog, fylder 3x mindre end tidligere danske state-of-the-art modeller (DaCy-large) og er 5x hurtigere.
Licens: udgivet under en MIT-licens.
13b541d2-2901-43a2-9229-f1e8c00dda4f
Dansk
Færøsk
Islandsk
NER
NLP
Norsk
Svensk
Værktøj
2021-09-28T00:00:00
2022-12-08T10:51:55.865370
Dansk
Bokmål
Nynorsk
Svensk
Islandsk
Færøsk
Dan Saattrup Nielsen
Dan Saattrup Nielsen
https://sprogteknologi.dk/catalog.rdf?page=2
https://sprogteknologi.dk/catalog.rdf?page=1
https://sprogteknologi.dk/catalog.rdf?page=2
183
100
fra Retskrivningsordbogen 2012 (4. udg.)
The language and genre of threats - XML
Tilgå download af ressourcen i XML format.
XML
2022-12-08T12:49:03.359999
2022-12-08T12:49:03.353836
A&ttack - Github
Tilgå ressourcen på GitHub i bin format.
BIN
2021-06-23T13:43:58.626982
2022-12-07T11:50:02.280813
Volume 2015 part 4/7
Vol_2015_4.zip
application/zip
TMX
2020-05-13T15:23:33.541221
2022-12-08T13:58:20.516113
Volume 2009 part 4/4
DGT-TM-release 2011
Vol_2009_4.zip
application/zip
TMX
2020-05-13T15:23:33.541272
2022-12-08T14:36:04.608857
Context Aware Splitter BIN format
Tilgå Context Aware Splitter på Hugging Face
BIN
2024-01-12T12:57:20.178459
2024-01-12T12:57:20.146482
COR.SEM.EXT 1.0 - tsv format
Starter download af COR.SEM.EXT 1.0 som tab-separeret liste.
text/tab-separated-values
TSV
2024-02-05T08:16:48.636219
2024-02-05T08:16:48.617342
Danske Stednavne på Datafordler - JSON.
Beskriver API kald for Danske Stednavne på Datafordeler.
JSON
2022-12-12T08:53:18.147379
2022-12-13T09:17:55.938787
DA-EN Danish Ministry of Higher Education and Science - PDF
Tilgå destinationsside, hvor ressourcen kan downloades i PDF format.
PDF
2022-12-12T09:10:12.722134
2022-12-12T09:10:12.717897
NST Danish Speech Synthesis (44kHz) - TXT
Download tilhørende transskriptioner i TXT format.
application/x-tar
TXT
2022-12-12T12:40:32.505347
2022-12-12T12:40:32.488323
Volume 2015 part 3/7
Vol_2015_3.zip
application/zip
TMX
2020-05-13T15:23:33.541233
2022-12-08T13:59:31.356522
Danish Summarisation
Danish Summarisation er en model til automatisk opsummering af tekst (automatic abstrasctive text summarisation). Modellen er domæne specifik for danske nyhedsartikler. Modellen er fine-tuned på en renset delmængde fra datasættet DaNewsroom. Modellen er evalueret både kvantitativt og kvalitativt ved brug af ROUGE og BERTScore og ved at få mennesker til at rangere opsummeringerne.
CSV
2023-06-09T08:35:26.224647
2023-06-09T08:38:25.144558
ScandEval - Python Pakke
Tilgå ScandEval pakken til Python.
Python
2021-11-25T14:45:20.899782
2022-12-07T12:05:42.484537
CVR Register - PDF
Søg i CVR registeret og find regnskabsdata for enkelte virksomheder i xml eller pdf.
PDF
2022-12-07T11:06:07.173795
2022-12-07T11:19:06.897525
NSt Danish Dictation - PCM
Tilgå download af ressourcens PCM filer.
PCM
2022-12-08T08:53:33.562973
2022-12-12T12:46:40.049639
DAGI på Dataforsyningen
Destinationsside med adgangspunkter til DAGI data.
GML
2022-12-12T08:57:44.111354
2022-12-12T08:57:44.100471
DK INSPIRE Addresses - XML
Tilgå ressourcen i XML format.
application/xml
XML
2020-06-02T12:18:47.709234
2022-12-12T09:05:31.556734
DAGI på Datafordeleren, REST
Siden beskriver de REST tjenester, der udstilles på Datafordeleren fra Danmarks Administrative Geografiske Inddeling (DAGI)
GML
2020-11-13T14:03:54.318416
2022-12-12T08:55:24.498316
Download COR Søgehjælp - TSV
Download ressourcen i TSV format.
text/tab-separated-values
TSV
2022-12-12T13:42:54.826446
2022-12-12T13:42:54.805652
Volume 2016 part 4/9
Vol_2016_4.zip
application/zip
TMX
2020-05-13T15:23:33.541277
2022-12-08T14:36:34.934383
Indgang til Ordia for dansk
Tilgå webapplikationen Ordia.
HTML
2023-01-27T10:06:46.115610
2023-01-27T10:06:46.100965
Volume 2015 part 2/7
Vol_2015_2.zip
application/zip
TMX
2020-05-13T15:23:33.541253
2022-12-08T14:01:46.888520
Volume 2015 part 1/7
Vol_2015_1.zip
application/zip
TMX
2020-05-13T15:23:33.541200
2022-12-08T13:55:52.134677
Dokumentation for ressourcen - PDF
Åbner dokumentation for ressourcen.
application/pdf
PDF
2022-12-12T13:06:00.979016
2022-12-12T13:06:00.962514
Fejlformer af danske ord
Hent ressourcen i csv format.
application/zip
CSV
2022-09-20T15:11:18.428833
2022-12-07T09:49:17.646984
Destination for retskrivningsordbogen i XML
For at få adgang til Retskrivningsordbogen i XML format skal der rettes henvendelse til adm@dsn.dk.
XML
2022-12-08T13:32:42.456604
2023-06-19T20:59:01.199178
Referater fra Folketinget - html
Tilgå referater fra Folketinget i html format.
HTML
2023-01-18T07:48:05.833089
2023-01-18T07:48:05.797094
Word2vec: Danish DSL and Reddit word2vec word embeddings - C format
Tilgå download af ressourcen i C format.
application/octet-stream
c/c++
2022-12-12T09:23:56.225826
2022-12-12T09:23:56.200407
Metode - Postnummer - REST (DAR)
Metoden postnummer kan med en af inputparametrene finde postnummer UUID’en eller DAGI’s seks cifrede værdi for et postnummer. Disse værdier kan benyttes som inputparametre i metoderne husnummer, adresse, navngivenvej og navngivenvejkommunedel.
XML
2020-10-07T07:14:13.760351
2022-12-08T15:42:07.523356
Volume 2016 part 2/9
Vol_2016_2.zip
application/zip
TMX
2020-05-13T15:23:33.541190
2022-12-08T13:54:55.232832
Søg i Danske Talers arkiv - HTML
Søg og find taler i Danske Talers arkiv i HTML format.
HTML
2022-12-07T11:34:57.075233
2022-12-07T11:34:57.067995
Stednavne på Dataforsyningen
Destinationsside med adgangspunkter til data
GML
2020-06-03T06:31:57.404168
2022-10-31T12:48:53.005269
Volume 2009 part 3/4
DGT-TM-release 2011
Vol_2009_3.zip
application/zip
TMX
2020-05-13T15:23:33.541264
2022-12-08T14:35:14.224010
Nota Lyd- og tekstdata via Huggingface
Tilgå Nota lyd- og tekstdata via HuggingFace
WAV
2022-10-11T12:05:20.615096
2022-10-26T12:10:03.525697
Klimarådets virkemiddelkatalog - HTML
Tilgå virkemiddelkataloget, hvor der kan findes tekster og udgivelser fra en række emner.
Bemærk, at nogle af tekstkilderne er HTML andre vil foreligge i PDF eller i andre formater.
HTML
2023-09-04T09:50:37.057613
2023-09-04T09:50:37.044244
WikiMatrix - TSV
Tilgå forklaring for download af ressourcen.
text/markdown
TSV
2022-12-12T09:14:52.452497
2022-12-12T09:14:52.433114
Volume 2007 part 3/3
DGT-TM-release 2011
Vol_2007_3.zip
application/zip
TMX
2020-05-13T15:23:33.541240
2022-12-08T14:00:17.408893
xls-r-300m-danish - BIN format
Tilgå ressourcen i bin format via Hugging Face
BIN
2022-08-17T11:55:25.442251
2022-12-20T12:08:19.905283
Volume 2004 part 2/2
DGT-TM-release 2011
Vol_2004_2.zip
application/zip
TMX
2020-05-13T15:23:33.541204
2022-12-08T13:56:25.555841
Volume 2013 part 6/7
DGT-TM-release 2014
Vol_2013_6.zip
application/zip
TMX
2020-05-13T15:23:33.541202
2022-12-08T13:55:59.609856
Angry Tweets Binary - Parquet
Tilgå ressourcen i parquet format.
Parquet
2024-02-20T14:51:34.502335
2024-02-21T08:48:28.041800
DK-CLARIN Referencekorpus - XML
Tilgå download af ressourcen i XML TEIP5 format.
XML
2022-12-09T08:20:05.966586
2022-12-09T08:20:05.961012
Volume 2007 part 2/3
DGT-TM-release 2011
Vol_2007_2.zip
application/zip
TMX
2020-05-13T15:23:33.541216
2022-12-08T13:57:45.371172
Siden beskriver filudtræk, der udstilles på Datafordeleren fra Danmarks Adresseregister (DAR).
Siden beskriver filudtræk, der udstilles på Datafordeleren fra Danmarks Adresseregister (DAR).
JSON
2020-10-07T07:14:13.760353
2023-02-03T13:13:25.793510
Terminologi på skatteområdet - Afhandling
Terminologien er resultatet af begrebsafklaring på skatteområdet (knap 100 skattebegreber på dansk og engelsk), som blev foretaget i 2012, og som udgjorde det eksperimentelle grundlag for brugerforsøg. Kilderne er primært Skatteministeriets lovgrundlag og juridiske vejledninger (dvs. Retsinformation og SKAT); Finansministeriet (Forslag til Finanslov 2012 (§38)); Danmarks Statistik (Skatter og afgifter 2012); Eurostat (Taxation Trends in the European Union 2012) samt OECD (Glossary of Tax Terms). Terminologien udstilles som en ordbog, der omsætter en hovedkonklusion fra ph.d.-afhandlingen ”Knowledge Dissemination Based on Terminological Ontologies: Using Eye Tracking to Further User Interface Design” (2015): Alle brugere kan forstå både artikler (tekst i tabel) og diagrammer (uddrag af terminologiske ontologier). Den enkelte ordbogsartikel er derfor forsynet med en lille figur, som viser et relevant udsnit af ontologien med relaterede termer.
PDF
2023-01-30T12:53:00.102242
2023-02-27T13:55:54.246542
COR 1.02
Download COR grundressource i tsv format.
TSV
2022-12-05T13:41:05.663133
2024-02-05T12:05:23.400268
Volume 2006 part 4/5
DGT-TM-release 2011
Vol_2006_4.zip
application/zip
TMX
2020-05-13T15:23:33.541182
2022-12-08T13:54:46.284080
Inspiration 2008 - 2016
.wav og .txt filer med oplæsninger af Notas magasin "Inspiration" udgivet i 2008 - 2016.
WAV
2022-10-07T09:26:34.192698
2022-10-26T12:10:13.303370
Metode - Husnummer - REST (DAR)
Metoden udstiller husnummer inklusiv Adgangspunkt (repræsenteret ved Husnummer), Vejpunkt (repræsenteret ved Husnummer) samt tilknytninger til NavngivenVej. NavngivenVej har tilknyttet en eller flere NavngivenVejKommunedel, som også udstiller med denne.
Alle attributter for Husnummer udstilles inklusiv de tilknytninger det aktuelle Husnummer har samt tilknytninger og ikke geografiske data fra Danmarks Administrative Geografiske Inddelinger (DAGI) (SupplerendeBynavn, Postnummer, Afstemningsområde, Sogneinddeling, Kommuneinddeling og MRAfstemningsområde).
XML
2020-10-07T07:14:13.760358
2022-12-08T15:44:59.876787
Jysk Ordbog
Jysk Ordbog (a-h) dækker over jyske dialekter i perioden 1700-1920. Størstedelen af ordbogens kilder afspejler jysk dialekt og landbokultur i perioden 1850-1920. Ordbogen indeholder information om ordene, som dækker over 1) udtale, 2) bøjning, 3) betydning(er), 4) område og 5) proveniens. Datapakken på CLARIN er fra 2011, men ordbogen bliver fortsat redigeret den dag i dag. Hvis man ønsker en nyere udgave, kan man kontakte Jysk Ordbog enten ved at sende en mail til mms@cc.au.dk eller via følgende side http://jyskordbog.dk/jyskordbog/ordbog.html.
XML
2023-02-27T08:26:05.811289
2023-02-27T08:26:05.792092
None
Volume 2014 part 3/3
Vol_2014_3.zip
application/zip
TMX
2020-05-13T15:23:33.541249
2022-12-08T14:01:20.132384
Volume 2016 part 3/9
Vol_2016_3.zip
application/zip
TMX
2020-05-13T15:23:33.541217
2022-12-08T13:57:53.752136
DA-EN Danish Ministry of Higher Education and Science 3 (Processed) - TMX
Tilgå download af DA-EN Danish Ministry of Higher Education and Science 3 (Processed).
TMX
2022-12-12T09:08:59.965787
2022-12-12T09:08:59.961742
Sound files – dialogues; mono-sound
application/zip
BIN
2020-06-22T14:25:47.406211
2022-12-08T15:16:30.439390
Copenhagen Dependency Treebank
Tilgå download af ressourcen via GitHub
application/zip
TAG
2020-06-22T13:03:11.112714
2022-12-08T15:11:27.505101
Volume 2013 part 2/7
DGT-TM-release 2014
Vol_2013_2.zip
application/zip
TMX
2020-05-13T15:23:33.541258
2022-12-08T14:34:38.430341
COR 1.0 webservice - HTML
Tilgå destinationsside for COR 1.0. webservice i HTML format.
HTML
2022-12-12T14:25:51.912664
2022-12-12T14:25:51.893861
Referater fra Folketinget - XML format
Tilgå referater fra Folketinget i XML format. Virker ikke for alle browsere.
XML
2022-09-20T12:36:21.162895
2023-01-18T07:48:17.338333
Punctfix
Tilgå værktøjet via GitHub.
Python
2022-04-19T13:00:55.279576
2022-12-07T11:51:31.507058
Volume 2004 part 1/2
DGT-TM-release 2011
Vol_2004_1.zip
application/zip
TMX
2020-05-13T15:23:33.541205
2022-12-08T13:56:33.906295
Synonymliste genret fra Den Danske Ordbog
Hent DSL Synonymliste i csv format.
application/zip
CSV
2022-10-26T12:45:14.484190
2022-10-26T12:47:07.901516
Context-aware-splits Parquet format
Tilgå Context Aware Splits på Hugging Face
Parquet
2024-01-12T12:53:57.862522
2024-01-12T12:54:31.990181
Inspiration 2016 - 2021
.wav og .txt filer med oplæsninger af Notas magasin "Inspiration" udgivet i perioden 2016 - 2021
WAV
2022-10-07T09:25:15.363937
2022-10-26T12:10:21.995854
Volume 2010 part 4/4
DGT-TM-release 2011
Vol_2010_4.zip
application/zip
TMX
2020-05-13T15:23:33.541227
2022-12-08T13:58:54.289839
Volume 2012 part 3/6
DGT-TM-release 2013
Vol_2012_3.zip
application/zip
TMX
2020-05-13T15:23:33.541229
2022-12-08T13:59:03.251383
RO+ - Retskrivningsordbogen online
Tilgå online version af retskrivningsordbogen i HTML format.
HTML
2022-12-08T13:37:36.050316
2022-12-08T13:37:36.043488
Terminologi på skatteområdet - XLSX
Hent data i xlsx format.
application/vnd.openxmlformats-officedocument.spreadsheetml.sheet
XLSX
2023-02-01T08:30:26.640973
2023-02-01T08:33:17.033396
Volume 2005 part 2/3
DGT-TM-release 2011
Vol_2005_2.zip
application/zip
TMX
2020-05-13T15:23:33.541245
2022-12-08T14:00:49.071382
KorpusDK
På denne side findes links til download af KorpusDK.
text/html
TXT
2022-10-26T12:07:43.230745
2022-10-26T12:07:43.222367
Volume 2013 part 1/7
DGT-TM-release 2014
Vol_2013_1.zip
application/zip
TMX
2020-05-13T15:23:33.541262
2022-12-08T14:35:06.448004
Volume 2014 part 2/3
Vol_2014_2.zip
application/zip
TMX
2020-05-13T15:23:33.541252
2022-12-08T14:01:38.104813
word2vec: Danish DSL and Reddit word2vec word embeddings - BIN
Download ressourcen i BIN format.
application/zip
BIN
2022-12-12T09:24:54.952650
2022-12-12T09:24:54.940672
Bornholmsk Ordbog - HTML
Tilgå Bornholmsk Ordbog online.
HTML
2023-01-04T15:39:04.845923
2023-01-04T15:39:04.823568
Volume 2016 part 8/9
Vol_2016_8.zip
application/zip
TMX
2020-05-13T15:23:33.541192
2022-12-08T13:55:05.187231
Lemmaliste fra Ordbog over det danske Sprog
Hent ressourcen i csv format.
application/zip
CSV
2022-03-09T13:11:59.450692
2022-12-07T09:47:39.411428
Uddrag af fuldformslisten.
Tilgå download af ressourcen i txt format.
TXT
2020-06-19T07:32:48.216737
2022-12-08T13:31:31.990306
Volume 2010 part 2/4
DGT-TM-release 2011
Vol_2010_2.zip
application/zip
TMX
2020-05-13T15:23:33.541251
2022-12-08T14:01:29.419239
Ha&te
Tilgå Ha&te i bin format på Github.
BIN
2021-06-23T13:03:29.623441
2022-12-07T11:46:52.290052
Oversigt over distributioner af Danske Stednavne på Datafordeler
Se diverse distributioner af Danske Stednavne på Datafordler
2022-12-13T09:19:53.712913
2022-12-13T09:19:53.706768
Volume 2013 part 5/7
DGT-TM-release 2014
Vol_2013_5.zip
application/zip
TMX
2020-05-13T15:23:33.541213
2022-12-08T13:57:28.450124
Fuldformliste fra Ordbog over det danske Sprog
Hente data "Fuldformliste fra Ordbog over det danske Sprog" som zip fil.
text/html
CSV
2022-03-09T15:01:05.048440
2022-12-07T09:45:40.641865
Volume 2008 part 2/4
DGT-TM-release 2011
Vol_2008_2.zip
application/zip
TMX
2020-05-13T15:23:33.541220
2022-12-08T13:58:11.240855
Navne registreret i Danmark 2020
Download ressourcen i txt format.
application/zip
TXT
2022-03-16T10:20:02.709620
2022-12-07T11:48:57.548877
1326523.0
Dictionary for the CST Lemmatizer
Tilgå download af Dictionary for the CST Lemmatizer
2022-12-21T12:02:34.598464
2022-12-21T12:02:34.570502
PAROLE - XML
Tilgå ressourcen PAROLE-DK i XML format.
application/zip
XML
2021-03-30T11:00:21.771524
2022-12-08T14:54:37.275382
Hviske
Tilgå Hviske modellen via Huggingface
safetensor
2024-01-16T13:16:15.742094
2024-02-19T11:30:22.157466
Retsinformation - PDF
Tilgå indholdet på Retsinformation i PDF.
PDF
2022-10-27T09:31:53.129429
2022-10-27T09:36:47.695770
CST Lemmatizer - webservice
Tilgå CST Lemmatizer som web-/demoservice.
text/html
HTML
2022-12-12T09:12:12.312526
2022-12-12T09:12:12.289079
LCC - Sentiment GitHub-repositorium
Tryk her for at komme til GitHub-repositorium
2024-02-20T14:34:37.198226
2024-02-20T14:34:37.184662
Autoriserede Stednavne 28.juni 2019
Tilgå datasættet i XLSX format.
application/vnd.openxmlformats-officedocument.spreadsheetml.sheet
XLSX
2020-06-22T14:25:46.682394
2022-12-12T09:18:27.677465
ScandiNER
Tilgå ScandiNER i bin format på Hugging Face
BIN
2021-10-11T07:39:33.332674
2022-12-07T12:08:43.573341
Alvenir
Volume 2007 part 1/3
DGT-TM-release 2011
Vol_2007_1.zip
application/zip
TMX
2020-05-13T15:23:33.541268
2022-12-08T14:35:39.568514
Opslagsord fra Retskrivningsordbogen
Tilgå ressourcen som txt fil i UTF-8-format med CRLF-linjeskift (kan åbnes i Windowsprogrammet Notesblok m.fl.).
application/zip
TXT
2020-06-19T07:32:48.840554
2022-12-08T13:50:07.748538
Volume 2010 part 3/4
DGT-TM-release 2011
Vol_2010_3.zip
application/zip
TMX
2020-05-13T15:23:33.541226
2022-12-08T13:58:45.970260
Volume 2013 part 7/7
DGT-TM-release 2014
Vol_2013_7.zip
application/zip
TMX
2020-05-13T15:23:33.541239
2022-12-08T14:00:08.285990
Volume 2009 part 2/4
DGT-TM-release 2011
Vol_2009_2.zip
application/zip
TMX
2020-05-13T15:23:33.541271
2022-12-08T14:35:56.772031
Volume 2011 part 4/4
DGT-TM-release 2012
Vol_2011_4.zip
application/zip
TMX
2020-05-13T15:23:33.541207
2022-12-08T13:56:42.703489
Dansk-Ukrainsk-Engelsk Ordbog - PDF
Download Ordbogen i PDF-format.
PDF
2022-11-02T10:34:53.400093
2022-11-02T10:34:53.368758
Volume 2010 part 1/4
DGT-TM-release 2011
Vol_2010_1.zip
application/zip
TMX
2020-05-13T15:23:33.541208
2022-12-08T13:56:51.340365
Hent ngram dansk 1000 - TXT som tar.gz
application/x-tar
TXT
2020-06-19T14:24:38.068407
2022-12-08T15:18:02.854097
Volume 2006 part 1/5
DGT-TM-release 2011
Vol_2006_1.zip
application/zip
TMX
2020-05-13T15:23:33.541243
2022-12-08T14:00:40.352332
alvenir_asr_da_eval - Hugging Face
WAV
2022-04-19T12:50:47.354912
2022-12-07T11:43:09.275714
Volume 2015 part 6/7
Vol_2015_6.zip
application/zip
TMX
2020-05-13T15:23:33.541232
2022-12-08T13:59:22.527257
Volume 2015 part 5/7
Vol_2015_5.zip
application/zip
TMX
2020-05-13T15:23:33.541198
2022-12-08T13:55:35.159017
Sound files – dialogues; stereo-sound
application/zip
BIN
2020-06-22T14:25:47.406204
2022-12-08T15:16:21.195006
COR 1.0 webservice - CSV
Tilgå destinationsside for COR 1.0. webservice i csv format.
CSV
2022-12-12T14:26:46.170125
2022-12-12T14:26:46.155297
Volume 2015 part 7/7
Vol_2015_7.zip
application/zip
TMX
2020-05-13T15:23:33.541210
2022-12-08T13:57:12.527278
Twitter-Sent Zip-fil
Hent Twitter-Sent som Zip-fil her
application/zip
ZIP
2024-02-21T09:34:59.429439
2024-02-21T09:34:59.409448
TV fra Folketinget - html
HTML
2022-09-20T13:38:21.172935
2022-09-20T13:38:21.132589
Nota tekstdata
Hent zip-mappe med alle transskriptioner 96.800 txt filer,
application/zip
TXT
2022-10-13T14:08:58.486596
2022-10-13T14:09:11.911302
Volume 2014 part 1/3
Vol_2014_1.zip
application/zip
TMX
2020-05-13T15:23:33.541224
2022-12-08T13:58:37.889577
DK INSPIRE Addresses - Visningstjeneste WMS
Tilgå datasæt udgivet som visningstjenesten (WMS)
WMS
2020-06-02T12:18:47.709228
2022-12-12T09:04:49.049417
Liste med frekvente lemmaer
Starter download af zip-fil som indeholder 1 txt fil med de 30.000 mest frekvente lemmaer.
application/zip
TXT
2022-10-26T12:41:07.974015
2022-10-26T12:41:07.963653
DanNet, Danish Wordnet (v 2.2) - owl format
OWL
2020-06-29T13:41:51.707490
2021-07-12T10:21:04.870601
Language model benchmark - HTML
Se sprogmodels benchmarken fra ScandEval projektet her.
HTML
2022-12-07T12:06:56.543155
2023-04-21T12:35:34.547019
Volume 2012 part 1/6
DGT-TM-release 2013
Vol_2012_1.zip
application/zip
TMX
2020-05-13T15:23:33.541242
2022-12-08T14:00:31.465550
Volume 2012 part 5/6
DGT-TM-release 2013
Vol_2012_5.zip
application/zip
TMX
2020-05-13T15:23:33.541235
2022-12-08T13:59:39.965660
SemDaX - XML
Tilgå download af ressourcen i XML format.
XML
2022-12-09T08:30:26.032303
2022-12-09T08:30:26.018506
Volume 2005 part 3/3
DGT-TM-release 2011
Vol_2005_3.zip
application/zip
TMX
2020-05-13T15:23:33.541237
2022-12-08T13:59:59.171322
Ordliste bornholmersnak - HTML.
Tilgå ordlisten på bornholmersnak i HTML format.
HTML
2022-12-08T14:58:09.983881
2022-12-08T14:58:09.967754
CVR - XBRL
Søg i CVR registeret og find regnskabsdata for enkelte virksomheder i xml eller pdf.
XML
2022-12-07T11:15:42.891579
2022-12-07T11:18:52.417471
Europarl - Zip
Hent Europarl ZIP-filen her
application/zip
ZIP
2024-02-20T14:44:46.444661
2024-02-21T09:18:29.226306
Stednavne på Dataforsyningen
Destinationsside med adgangspunkter til data
GML
2020-11-13T11:26:48.110333
2022-12-12T08:51:34.434016
EUIPO - Trade mark Guidelines (October 2017) (English-Danish) (Processed)
Tilgå download af ressourcen i TMX format.
TMX
2022-12-08T12:28:04.191116
2022-12-08T12:28:04.186398
Sound files – word lists
application/zip
BIN
2020-06-22T14:25:47.406217
2022-12-08T15:16:39.774465
Fuldformliste fra den danske ordbog
Hent data "Fuldformliste fra den danske ordbog" som zip fil
text/html
CSV
2022-03-09T13:25:17.350033
2022-12-07T09:46:21.588716
Volume 2011 part 1/4
DGT-TM-release 2012
Vol_2011_1.zip
application/zip
TMX
2020-05-13T15:23:33.541195
2022-12-08T13:55:27.263270
Danish WIT
Datasættet er den danske del af WIT-Base datasættet, som blev udgivet af WikiMedia i 2021. WIT-Base er en modificeret udgave af WIT (Wikipedia Image Text), hvor billeder med tomme "reference beskrivelser" og billeder, hvor en persons ansigts dækker mere end 10% af billedet, fjernes. Derudover slettes upassende billeder. Danish WIT datasættet indeholder omkring 160.000 billeder, som er associeret med danske beskrivelser.
parquet
2022-12-12T11:04:44.695491
2022-12-12T11:25:45.407185
Heidrun-Mistral-7B-Chat - safetensor
Tilgå download af modellen i safetensor format.
safetensor
2024-02-27T11:25:08.758786
2024-02-27T11:25:08.746759
SMK Open - API
Vejledning i at tilgå SMK Open ved API kald
JSON
2023-05-17T09:03:41.308263
2023-05-17T09:03:41.298344
mbkromann-copenhagen-dependency-treebank-2fa64f8.tar.gz
Tilgå download af ressourcen i atag.
application/x-tar
ATAG
2020-06-22T13:03:11.112721
2022-12-08T15:11:49.249858
COR 1.0 webservice - JSON
Tilgå destinationsside for få COR 1.0. i JSON format.
api/json
2022-12-12T14:24:59.708745
2022-12-12T14:24:59.675956
SMK Open - Webservice
Tilgå SMK Open via webservice
HTML
2023-05-17T09:04:18.673441
2023-05-17T09:04:18.669078
Danskgpt-tiny
Tilgå modellen via HuggingFace
BIN
2024-01-16T13:39:19.387769
2024-01-16T13:45:52.961767
Volume 2012 part 2/6
DGT-TM-release 2013
Vol_2012_2.zip
application/zip
TMX
2020-05-13T15:23:33.541194
2022-12-08T13:55:14.632154
Nordic Model weights for BERT
Tilgå download af model weights til BERT i ckpt format.
CKPT
2022-12-08T12:35:57.172311
2022-12-08T12:35:57.161355
Klimarådets udgivelser - PDF
Tilgå overblik over Klimarådets udgivelser i PDF format.
PDF
2023-09-04T09:38:05.676008
2023-09-04T09:38:05.664287
Stortinget Speech Corpus version 1.0
Link til download findes på denne side.
JSONL
2024-01-12T09:18:17.402723
2024-01-12T12:41:34.878972
LCC - Sentiment GitHub
Tryk her for at downloade .csv-filen.
text/csv
CSV
2024-02-20T14:32:48.411864
2024-02-20T14:32:48.397819
ePAROLE - TXT
Tilgå ressourcen i ePAROLE i txt format.
application/zip
TXT
2021-03-30T11:00:43.948499
2022-12-08T14:55:03.656382
Modelvægte i txt format
Download modelvægte i plain txt format.
application/zip
TXT
2022-12-12T09:25:23.466298
2022-12-12T09:25:23.458368
Volume 2016 part 6/9
Vol_2016_6.zip
application/zip
TMX
2020-05-13T15:23:33.541214
2022-12-08T13:57:37.165208
The Danish Parliament Corpus 2009 - 2017, v2, w. subject annotation
The Danish Parliament Corpus 2009 - 2017, v2, w. subject area annotation indeholder udskrifter af taler holdt i Folketinget, session 20091 til 20161 (6/10 2009 - 7/9 2017) og er downloadet fra Folketingets ftp servcer: ftp://oda.ft.dk. Korpusset har metadata om Folketingets medlemmer (navn, køn, alder, rolle, titel, partipolitisk tilhørsforhold), tidspunkt for talerne og subject area annotion for hver dagsorden. Informationen omkring alder og køn er blevet hentet fra eksterne kilder, og subject area annotation blev semi-automatisk tilføjet til hver tale ud fra de annoterede titler på dagsordenerne. Korpusset er organiseret i txt-filer, hvor der der er en fil pr. møde og en zip-fil per session. Korpusset The Danish Parliament Corpus 2009 - 2017 følger licensen for Open Data med angivelse af følgende: "Folketinget tillader en global, fri, ikke-eksklusiv og uindskrænket ret til brug af data fra Folketingets åbne datakatalog. Dataen kan frit benyttes til: 1) kopiering, distribuering og udgivelse, 2) tilpasning og i kombination med andet materiale, 3) til kommercielt og ikke-kommercielt brug." Derudover kan, med overholdelse af ophavsretsloven, talerne blive distribueret uden samtykke fra taleren så længe taleren af teksten/talen er tydeligt angivet. Folketinget er anerkendt som kilden.
TXT
2022-12-09T09:40:18.674933
2022-12-09T09:40:18.662469
DanNet, Danish Wordnet (v 2.2) - csv-format
CSV
2020-06-29T13:41:51.707483
2021-07-12T10:21:04.866674
Radio/TV Program 2019 - 2022
.wav og .txt filer med oplæsninger af Notas magasin "Radio/TV Programmet" udgivet 2019 - 2022
WAV
2022-10-07T09:30:48.679674
2022-10-26T12:10:53.452475
Terminologi på skatteområdet - SKOS
Download data i SKOS format.
text/turtle
SKOS
2023-02-27T13:52:34.465495
2023-02-27T13:52:34.452553
Nationalbiblioteket i Norge
Common Voice v.10 - Dansk
Her finder du link til download af det danske Common Voice
MP3
2022-09-20T14:55:24.940294
2022-09-20T14:55:24.917109
Alvenir wav2vec
Tilgå modellen i bin format på Hugging Face
BIN
2021-12-03T09:41:49.908790
2022-12-07T11:53:09.778211
Nota lyd- og tekstdata
Her kan du tilgå mapperne, som indeholder zipfilerne med Nota lyddata i wav og tekstdata i txt.
WAV
2022-10-12T08:04:42.704467
2022-10-26T12:09:49.912711
Metode - Navngivenvej - REST (DAR)
Metoden Navngivenvej returnerer den navngivne vejs geografiske udbredelse i tagget vejnavnebeliggenhed_vejnavnelinje, tilknytning til kommune(r) med en eller flere forekomster af NavngivenVejKommunedel i segmentet NavngivenvejKommunedelList, tilknytningen til samtlige postnumre for den navngivne vej samt tilknytningen til supplerende bynavn(e), hvis dette findes.
XML
2020-10-07T07:14:13.760337
2022-12-08T15:40:51.830206
alvenir-asr-da-eval - GitHub
Tilgå datasættet lagt på github som zip-fil.
WAV
2022-04-19T12:50:24.861213
2022-12-07T11:43:19.878810
Styrelsen for Dataforsyning og Infrastruktur
Filudtræk beskrivelse af DAGI.
Siden beskriver filudtræk, der udstilles på Datafordeleren fra Danmarks Administrative Geografiske Inddeling (DAGI).
HTML
2022-12-12T08:57:03.055847
2022-12-12T08:57:03.035681
Se DK INSPIRE Named place
Viser datasættet i view service (WMS)
WMS
2020-06-03T06:31:57.404178
2022-12-12T09:01:09.241940
Heidrun-Mistral-7B - safetensor
Tilgå download af Heidrun-Mistral-7B modellen i safetensor format
safetensor
2024-02-26T13:59:31.442094
2024-02-26T13:59:31.426031
Radio/TV Program 2007 - 2012
.wav og .txt filer med oplæsninger af Notas magasin "Radio/TV Programmet" udgivet 2007 - 2012.
WAV
2022-10-07T08:37:29.558810
2022-10-26T12:10:30.417309
Danmarks Adressers Web API (DAWA)
Danmarks Adressers Web API (DAWA) udstiller data og funktionalitet vedrørende Danmarks adresser. DAWA kan anvendes til at etablere adressedata og -funktionalitet i it-systemer. Målgruppen for nærværende website er udviklere, som ønsker at implementere adressedata og -funktionalitet i deres it-systemer.
api/json
2022-12-08T15:46:19.255497
2023-02-03T13:12:35.857966
Volume 2008 part 4/4
DGT-TM-release 2011
Vol_2008_4.zip
application/zip
TMX
2020-05-13T15:23:33.541261
2022-12-08T14:34:56.621823
Statens Museum for Kunst
Recognition - GitHub
Tilgå værktøjet til Python på GitHub
Python
2021-12-03T10:03:32.397560
2022-12-07T11:52:18.800866
NamedPlace - XML
Tilgå datasættet i XML format.
application/xml
XML
2022-12-12T09:02:04.363227
2022-12-12T09:02:04.353215
Volume 2011 part 2/4
DGT-TM-release 2012
Vol_2011_2.zip
application/zip
TMX
2020-05-13T15:23:33.541280
2022-12-08T14:36:52.325851
Øvrige
Scandinavian Embedding Benchmark – HTML
Tilgå ressourcen i HTML
HTML
2024-02-20T12:50:37.044028
2024-02-21T08:45:47.227210
COR.SEM 1.0 - tsv format
Starter download af COR.SEM 1.0. som tab-separeret liste her.
text/tab-separated-values
TSV
2024-02-05T08:05:58.121191
2024-02-05T08:06:29.782312
Klimarådet
GitHub repository: Stortinget Speech Corpus version 1.0
You can find the GitHub repository through this distribution.
2024-01-12T12:48:08.812792
2024-01-12T12:48:08.772804
Volume 2012 part 6/6
DGT-TM-release 2013
Vol_2012_6.zip
application/zip
TMX
2020-05-13T15:23:33.541275
2022-12-08T14:36:26.067234
Volume 2006 part 2/5
DGT-TM-release 2011
Vol_2006_2.zip
application/zip
TMX
2020-05-13T15:23:33.541274
2022-12-08T14:36:13.536805
framenetdata_1_0.csv
CSV
2020-06-19T13:43:42.517682
2021-07-12T10:21:07.433264
word2vec word embeddings
Tilgå Python pakke her.
Python
2020-06-19T13:43:43.327994
2022-12-08T09:56:05.414031
Beskrivelser af dataudtræk Danske Stednavne på Datafordeleren
Siden beskriver filudtræk, der udstilles på Datafordeleren fra Danske Stednavne.
HTML
2022-12-12T08:53:51.026234
2022-12-12T08:58:30.965137
Danish Data Science Community
Volume 2016 part 1/9
Vol_2016_1.zip
application/zip
TMX
2020-05-13T15:23:33.541265
2022-12-08T14:35:23.124210
Volume 2013 part 4/7
DGT-TM-release 2014
Vol_2013_4.zip
application/zip
TMX
2020-05-13T15:23:33.541256
2022-12-08T14:34:29.383890
Text grids. (Last updated in 2014)
application/zip
TXT
2020-06-22T14:25:47.406213
2022-12-08T15:15:53.964333
Volume 2013 part 3/7
DGT-TM-release 2014
Vol_2013_3.zip
application/zip
TMX
2020-05-13T15:23:33.541246
2022-12-08T14:00:57.169409
Metode - adresse - REST (DAR)
Metoden udstiller Adresse(r) og tilknytningerne til NavngivenVej, Husnummer og postnummer. Alle attributter for Husnummer udstilles inklusiv de tilknytninger det aktuelle Husnummer har samt tilknytninger og ikke geografiske data fra Danmarks Administrative Geografiske Inddelinger (DAGI) (SupplerendeBynavn, Postnummer, Afstemningsområde, Sogneinddeling, Kommuneinddeling og MRAfstemningsområde).
XML
2020-10-07T07:14:13.760341
2022-12-08T15:41:03.255962
Download COR EXT - TSV
Starter download af COR EXT i TSV format.
text/tab-separated-values
TSV
2022-12-12T14:00:19.682681
2022-12-12T14:00:19.663498
Volume 2006 part 5/5
DGT-TM-release 2011
Vol_2006_5.zip
application/zip
TMX
2020-05-13T15:23:33.541248
2022-12-08T14:01:08.982743
CopCo: The Copenhagen Corpus of Eye-Tracking Recordings from Natural Reading
CopCo er et eye-tracking korpus, som er skræddersyet til både psykolingvistik og natural language processing. Målet er at undersøge læseadfærd af danske tekster hos forskellige befolkningsgrupper. Korpusset indeholder data på øjenbevægelser hos folk med dansk som modersmål, og det er både folk med og uden ordblindhed. Derudover er der også et sæt med folk, som ikke har dansk som modersmål. Dataen indeholder en CSV-fil pr. deltager med eye-tracking målesystemet. Hver fil indeholder teksten, som deltageren har læst med et ord pr. linje. I forhold til ordene samt ordets ID, sætningens ID, og tekstens ID, så indeholder hver fil eye-tracking features for hvert ord, hvilket vil sige: landing position, first fixation duration, first pass duration, go-past time, mean fixation duration, total fixation duration, number of fixations, mean saccade duration og peak saccade velocity. Projektet er blevet godkendt af the Ethics Commission på det Humanistiske Fakultet ved Københavns Universitet. Korpusset indeholder 32 tekster, 36888 tegn og 1943 sætninger.
CSV
2022-12-12T11:24:57.725481
2022-12-12T11:24:57.691539
ScandiQA
ScandiQA er et datasæt bestående af spørgsmål og svar på dansk, norsk og svensk. Alle samples kommer fra Natural Questions (NQ) datasættet, som er et stort datasæt med spørgsmål og svar fra Googlesøgninger. Det skandinaviske datasæt med spørgsmål og svar kommer fra MKQA-datasættet, hvor 10.000 NQ-samples er blevet manuelt oversat til blandt andet dansk, norsk og svensk.
JSON
2022-12-12T12:36:33.926677
2022-12-12T12:36:33.912075
Lyd fra Folketinget
MP3
2022-09-20T13:40:41.924791
2022-09-20T13:40:41.915623
Kommunal semantisk grundmodel nr 1
Tilgå grundmodellen på Hugging Face her.
BIN
2024-03-13T08:11:09.504727
2024-03-13T08:35:16.575895
NSt Danish Dictation - TXT
Tilgå download af ressourcen og tilgå txt filerne.
TXT
2020-06-19T14:24:37.789777
2022-12-08T08:52:15.680507
Retsinformation - HTML
Tilgå indholdet på Retsinformation i HTML.
HTML
2022-10-27T09:31:35.213757
2022-10-27T09:36:32.074871
Twitter-Sent Parquet-filer
Find Twitter-Sent som Parquet-filer her
Parquet
2024-02-21T09:37:31.094699
2024-02-21T09:37:31.085620
Medical spelling dictionary (processed)
Tilgå download af ressource i TBX format (TermBase eXchange)
TBX
2022-12-08T12:46:28.583310
2022-12-08T12:46:28.577260
Scandinavian Embedding Benchmark – Python-pakke
Tilgå ressourcen som python pakke
Python
2024-02-20T12:50:15.548531
2024-02-21T08:38:25.839513
Volume 2006 part 3/5
DGT-TM-release 2011
Vol_2006_3.zip
application/zip
TMX
2020-05-13T15:23:33.541278
2022-12-08T14:36:43.882813
Stednavne på Datafordeleren, REST
Destinationsside med adgangspunkter til Stednavne data på Datafordeleren
GML
2022-10-31T12:52:14.335905
2022-10-31T12:52:14.321252
NST Danish Speech Synthesis (44kHz) - PCM
Tilgå download af ressourcen i PCM format.
application/x-tar
PCM
2020-06-19T14:24:37.206506
2022-12-12T12:39:26.964013
TV fra Folketinget
MP4
2022-09-20T12:15:36.506764
2022-09-20T13:37:45.978503
Radio/TV Program 2013 - 2015
.wav og .txt filer med oplæsninger af Notas magasin "Radio/TV Programmet udgivet i 2013 - 2015.
WAV
2022-10-07T09:27:40.055738
2022-10-26T12:10:37.953124
NST Danish ASR Database (16 kHz) - PCM
Tilgå download af ressourcen i PCM format.
application/x-tar
PCM
2020-06-19T14:24:37.475728
2022-12-12T13:02:53.265013
Senest tilføjede dumps fra Dansk Wikipedia
Tilgå liste med seneste udgaver af datadumps fra den danske Wikipedia i XML format.
XML
2024-01-29T08:45:42.482106
2024-01-29T08:45:42.455736
Radio/TV Program 2016 - 2018
.wav og .txt filer med oplæsninger af Notas magasin "Radio/TV Programmet" udgivet 2016 - 2018.
WAV
2022-10-07T09:29:59.199605
2022-10-26T12:10:45.768054
Volume 2016 part 7/9
Vol_2016_7.zip
application/zip
TMX
2020-05-13T15:23:33.541230
2022-12-08T13:59:11.329297
Metode - NavngivenvejKommunedel - REST (DAR)
Anvend DAR tjenestens metode NavgivenvejKommunedel, som er kommunekoder og vejkoder for den navngivne vej.
XML
2020-10-07T07:14:13.760348
2022-12-08T15:41:27.222618
Volume 2009 part 1/4
DGT-TM-release 2011
Vol_2009_1.zip
application/zip
TMX
2020-05-13T15:23:33.541218
2022-12-08T13:58:02.465549
Navne i hele befolkningen
Tilgå data om top 20 navne i den danske befolkning fra Danmarks Statistik i html format.
HTML
2022-12-07T12:35:34.825274
2022-12-07T12:36:12.459107
Sundhedsvæsenets begrebsbase
Søg i Sundhedsvæsenets begrebsbase.
HTML
2022-12-07T12:33:37.041837
2022-12-07T12:33:37.033607
Danske Stednavne - XML
Beskrivelse af API kald for Danske Stednavne i XML format.
XML
2022-12-13T09:16:41.280291
2022-12-13T09:16:41.270841
The Norwegian Colossal Corpus
JSON
2022-05-04T07:50:45.907466
2022-09-20T15:19:21.165884
Hent Flexikon i txt format.
Tilgå download af Flexikon
text/html
TXT
2020-06-19T13:43:41.097831
2022-12-08T14:51:28.949026
Volume 2005 part 1/3
DGT-TM-release 2011
Vol_2005_1.zip
application/zip
TMX
2020-05-13T15:23:33.541270
2022-12-08T14:35:47.946758
None
Volume 2008 part 1/4
DGT-TM-release 2011
Vol_2008_1.zip
application/zip
TMX
2020-05-13T15:23:33.541236
2022-12-08T13:59:50.639589
Volume 2011 part 3/4
DGT-TM-release 2012
Vol_2011_3.zip
application/zip
TMX
2020-05-13T15:23:33.541199
2022-12-08T13:55:43.717189
Analyse og Tal
Named Entity Recognition dataset til Danske juridiske tekster
Tilgå datasættet udgivet i conll format på Github.
conll
2022-11-29T12:58:45.854433
2022-12-05T08:42:30.457185
Siden beskriver de REST tjenester, der udstilles på Datafordeleren fra DAR
Siden beskriver de REST tjenester, der udstilles på Datafordeleren fra DAR.
XML
2022-12-08T15:47:34.408991
2023-02-03T13:15:45.222579
Lemmaliste fra Den Danske Ordbog
Hent ressourcen i csv format.
application/zip
CSV
2022-03-09T15:08:55.033509
2022-12-07T09:48:05.728556
xls-r-300m-danish-nst-cv9 - Hugging Face
Tilgå ressourcen i bin format på Hugging Face
BIN
2022-08-18T13:05:27.467851
2022-12-07T11:33:21.520404
Metode - Supplerendebynavn - REST (DAR)
Metoden Supplerendebynavn kan med en af inputparametrene finde Supplerendebynavn UUID,en eller DAGI,s seks cifrede værdi for et Supplerendebynavn. Disse værdier kan benyttes som inputparametre i metoderne husnummer, adresse, navngivenvej og navngivenvejkommunedel.
XML
2020-10-07T07:14:13.760344
2023-02-03T13:08:43.176482
Dokumentation for ressourcen - PDF
Åbner dokumentation for ressourcen i PDF format.
application/pdf
PDF
2022-12-12T13:05:15.794787
2022-12-12T13:05:15.767508
Københavns Universitet
Sound files – monologues
application/zip
BIN
2020-06-22T14:25:47.406215
2022-12-08T15:16:11.057746
Volume 2016 part 5/9
Vol_2016_5.zip
application/zip
TMX
2020-05-13T15:23:33.541259
2022-12-08T14:34:47.368597
Retsinformation - XML
Tilgå de enkelte tekster på Retsinformation.dk ved: www.retsinformation.dk/eli/accn/[accesionsnummer]/xml.
API giver indgang til JSON-fil, hvor fra acessionsnummer kan findes for dokumenter, der er blevet ændret inden for de seneste 10 dage.
text/html
XML
2022-10-27T09:27:49.626673
2022-11-04T13:45:05.442777
Hent ngram dansk 1000 - TXT
Tilgå download af data i txt format.
application/zip
TXT
2020-06-19T14:24:38.068399
2022-12-08T15:17:30.938806
Folketingets åbne data - XML
Her kan du tilgå Folketingets åbne data i XML format.
XML
2022-09-20T13:47:26.570859
2022-09-20T13:47:26.557294
Kommunal semantisk grundmodel 2 - bin format
Til Kommunal semantisk grundmodel 2 - bin format via Hugging Face
BIN
2024-03-13T08:34:36.386109
2024-03-13T08:34:36.369386
Folketingets åbne data
Her kan du tilgå Folketingets åbne data JSON.
JSON
2022-09-20T13:46:52.996328
2022-09-20T13:46:52.988122
Volume 2008 part 3/4
DGT-TM-release 2011
Vol_2008_3.zip
application/zip
TMX
2020-05-13T15:23:33.541223
2022-12-08T13:58:28.920362
AI-aktindsigt
Danish sentiment lexicon - CSV
Tilgå download af ressourcen i csv format.
CSV
2022-12-07T12:16:43.135642
2022-12-07T12:16:43.098216
Digitaliseringsstyrelsen
Volume 2016 part 9/9
Vol_2016_9.zip
application/zip
TMX
2020-05-13T15:23:33.541267
2022-12-08T14:35:31.526586
Volume 2012 part 4/6
DGT-TM-release 2013
Vol_2012_4.zip
application/zip
TMX
2020-05-13T15:23:33.541211
2022-12-08T13:57:20.690532
Alexandra Instituttet
Det Danske Sprog- og Litteraturselskab
Wikimedia Foundation
Aarhus Universitet