Datasæt - sprogteknologi.dk

Nordjylland News Image Captioning

Oliver Kinch fra Alexandra Instituttet har kureret datasættet nordjylland-news-image-captioning med artikler fra TV2 Nord. Datasættet består af artiklernes billeder,...

Parquet

Nordjylland News Summarization

Oliver Kinch fra Alexandra Instituttet har kureret datasættet nordjylland-news-summarization med artikler fra TV2 Nord ved hjælp af mediehusets API. Datasættet har CC0 licens....

Parquet

Scandi Reddit Filtered

ScandiReddit er et filtrereet korpus bestående af kommentarer fra Reddit.com. Alle Reddit kommentarer fra december 2005 til oktober 2022 blev downloadet via PushShift, hvorefter...

Parquet

Nota lyd- og tekstdata

Datasættet indeholder både tekst- og taledata fra udvalgte dele af Nota's lydbogsbibliotek. Datasættet består af over 500 timers oplæsninger og medfølgende transskriptioner på...

WAV
Plain text

DanPASS udtaleordbogen

Udtaleordbog baseret på transskriptionerne i DanPASS-korpusset. Listen indeholder 67.285 transskriptioner af 2.232 fonologiske ord. Listen viser ortografisk ord,...

HTML
WAV

Citizenship Tests Da.

“Citizenship Tests Da.” er et spørgsmåls/svar-datasæt, der strukturerer flere års indfødsrets- og medborgerskabsprøver til brug af evaluering af sprogmodeller på dansk....

Parquet

Røst-315M

RØST-315M is a speech recognition model based on the CoRal-dataset, and the model is a product of the CoRal-project. CoRal is a project that aims to produce datasets that are...

HTML

AI-Aktindsigt: Skrab af Kommunale Hjemmesider

Datasættet består af flere skrab af kommunale hjemmesider udarbejdet i forbindelse med arbejdet med AI-aktindsigt projektet. Skrabet er lavet på forskellige domæner fra flere...

HTML

Danmarks Adresseregister (DAR)

Der er registreret ca. 3,5 millioner adresser i DAR og ca. 110.000 vejnavne. Der blev i 2017 oprettet ca. 52.000 nye adresser og 400 nye vejnavne, desuden ændres og nedlægges et...

XML

NB-BERT

"NB-BERT-base is a general BERT-base model built on the large digital collection at the National Library of Norway. This model is based on the same structure as BERT Cased...

HTML

Danoliterate Llama 7B

Modellen "Danoliterate LlaMa 7B" er en stor sprogmodel tilpasset fra Meta AI's LlaMa 2 7B på en blanding af dansk data. Modellen har 7 milliarder parametre og er en basismodel,...

HTML

Hviske

Dansk tale-til-tekst model, baseret på OpenAI's Whisper v3 large. Modellen er trænet på flere danske datasæt og dækker ca. 300 timers dansk tale fra personer i alle...

HTML

Named Entity Recognition dataset til Danske juridiske tekster

Named entity recognition dataset til Danske juridiske tekster er et datasæt bestående af 2415 sætninger fra dokumenter i domsdatabasen. Disse dokumenter er annoteret med 8...

HTML

spaCY - statistiske modeller for dansk

Danish multi-task CNN trained on UD Danish DDT and DaNE. Assigns context-specific token vectors, POS tags, dependency parses and named entities. Sources: Danish Universal...

HTML

Hisia

ML Powered Danish Sentiment Model.

HTML

DaAnonymization

DaAnonymization er en anonymiserings pipeline, der giver nem adgang til anonymisering af dansk tekst ved brug af DaCy's entitetsgenkendelse og regulære ekspressioner. Værktøjet...

HTML

Rec&nition

Dette repository indeholder kode og modelvægtene til Rec&nition algortimen. Den er udviklet af Analyse og Tal F.M.B.A. med støtte fra TryghedsFonden. Algoritmen er designet...

HTML

NERDA

NERDA' er et værktøj (udgivet som Python-pakke) til at fine-tune NLP transformer-modeller til at identificere personer, organisationer, lokationer m.m. i tekster (=Named-Entity...

HTML

DK-CLARIN Parallel Financial Corpus (da-en)

The DK-CLARIN Parallel Financial Corpus comprises 4.3 M Danish and 4.8 M English tokens from translated (parallel) documents, mainly annual reports, of the period 2002-2010 from...

XML

SMK Open

SMK Open arbejder på at stille hele Statens Museum for Kunsts værker til fri benyttelse ved at digitalisere og tilgængeliggøre museets værker. Lige nu er der mere end 111.000...

JSON
HTML

214 sprogressourcer fundet