-
DanskGPT-Tiny
DanskGPT-tiny er en 1,1 milliard parametre LLaMA baseret LLM. Træningen er en fortsættelse af TinyLLaMA. Modellen er trænet på 8 milliarder tokens af dansk syntetisk tekst.... -
Context-Aware-Splits
Datasæt genereret vh.a. DanskGPT og brugt til at træne modellen Context-Aware-Splitter. Context-aware-splitter er en model til retrieval augmented generation. Modellen er... -
AI-Aktindsigt: Skrab af Kommunale Hjemmesider
Datasættet består af flere skrab af kommunale hjemmesider udarbejdet i forbindelse med arbejdet med AI-aktindsigt projektet. Skrabet er lavet på forskellige domæner fra flere... -
NB-BERT
"NB-BERT-base is a general BERT-base model built on the large digital collection at the National Library of Norway. This model is based on the same structure as BERT Cased... -
Hviske
Dansk tale-til-tekst model, baseret på OpenAI's Whisper v3 large. Modellen er trænet på flere danske datasæt og dækker ca. 300 timers dansk tale fra personer i alle... -
DaAnonymization
DaAnonymization er en anonymiserings pipeline, der giver nem adgang til anonymisering af dansk tekst ved brug af DaCy's entitetsgenkendelse og regulære ekspressioner. Værktøjet... -
Context-Aware-Splitter
Context-aware-splitter er en model til retrieval augmented generation. Modellen er udviklet til at opdele tekster på den mest optimale måde givet en kontekst. Opdeling af... -
AFINN
Ordliste og værktøj til sentimentanalyse skrevet i Python. -
Ordia
Ordia er en frontend/webapplikation, som udstiller Wikidatas leksikografiske data på en let, overskuelig og tilgængelig måde. Du kan bruge Ordia til at finde oplysninger om en... -
Kommunal semantisk grundmodel 1
Kommunal Semantisk Grundmodel nr. 1 er en videretræning af det Norske nationalbiblioteks AI laboratories (NbAiLab) BERT-Base sprogmodel, og er trænet på 2,672,566 unikke... -
XLS-R-300m-danish-nst-cv9
'Finetuned version af XLS-R-300m-danish til talegenkendelse på dansk. Modellen er finetuned på træningssættet af NST ASR og Common Voice 9, og har en word error rate på 5-10% på... -
XLS-R-300m-danish
XLS-R-300m-danish er en general dansk talemodel der bygger på wav2vec2.0 arkitekturen og er en fortsat prætræning af XLS-R checkpointet. Modellen er trænet på 141.000 timers... -
DASEM Compounds
List of a limited number of Danish compound words. Each line lists a word with one or more vertical bar as the separator between the individual parts of the compound word. -
DaCy
DaCy er et framework til processering af dansk fritekst. Særligt indeholder den tre sprogprocesserings pipelines til dansk fritekst. De pipeline er af 3 forskellige størelser... -
DASEM WordSim-353-da
Dansk oversættelse af WordSim-353-word similarity datasættet som vedligeholdes af Evgeniy Gabrilovich. -
DASEM Four Words
Komma opdelt fil med fire ord på hver linje, hvor det fjerde ord er en semantisk outlier. -
DanSpeech
Open-source Python-pakke til dansk talegenkendelse (tale-til-tekst). DanSpeech har arbejdet på at udvikle generelle talegenkendelsesmodeller siden 2018. Projektet har levet som... -
Bidirectional Long-Short Term Memory tagger
A toolkit for Part-of-Speech tagging and NER in DyNet. It has been tested on Danish, amongst other languages (for the UD POS tags in the UD_Danish-DDT version 1.1 and 2.3)... -
Danish Summarisation
Danish Summarisation er en model til automatisk opsummering af tekst (automatic abstrasctive text summarisation). Modellen er domæne specifik for danske nyhedsartikler. Modellen... -
Alvenir Wav2vec2
En word2vec2 model, som er trænet på omtrent 1300 timers dansk taledata fra podcasts og lydbøger. Modellen er trænet på 16kHz taledata, hvilket også er formatet, der skal...
Du kan også tilgå dette register med API (se API-dokumenter).