-
scandi-fine-web-cleaner
Denne model er en demoklassifikator til at identificere problematisk indhold (forkert sprog, forvrænget tekst) i danske og svenske webtekster. Modellen blev udviklet som en del... -
Synthetic from Text Matching Long Tasks Danish
The purpose of this dataset is to pre- or post-train embedding models for Danish text matching tasks. The dataset consists of 100,000 samples generated with gemma-2-27b-it. The... -
Synthetic from Classification Tasks Danish
The purpose of this dataset is to pre- or post-train embedding models for Danish text classification tasks. The dataset consists of 100,000 samples generated with... -
Synthetic from Text Matching Short Tasks Danish
The purpose of this dataset is to pre- or post-train embedding models for Danish text matching tasks on short texts. The dataset consists of 100,000 samples generated with... -
Synthetic from Retrieval Tasks Danish
The purpose of this dataset is to pre- or post-train embedding models for Danish retrieval tasks. The dataset consists of 100,000 samples generated with gemma-2-27b-it. The... -
Synthetic from Unit Triple Tasks Danish
The purpose of this dataset is to pre- or post-train embedding models for Danish on text similarity tasks. The dataset consists of 100,000 samples generated with gemma-2-27b-it.... -
Syntetisk dialog opsummering raw
Thanks to NVIDIA and Arrow Denmark for sponsoring the compute needed to generate this dataset This dataset conists of 1,000,000 synthetic dialogs in Danish and a summary of each... -
Danoliterate Mistral 7B
Modellen "Danoliterate Mistral 7B" er en stor sprogmodel tilpasset fra Mistral AI's Mistral 7B på en blanding af dansk data. Modellen har 7 milliarder parametre og er en... -
Danoliterate Baseline Model 7B
Modellen "Danoliterate Baseline 7B" er en stor sprogmodel trænet fra bunden på en blanding af dansk data. Modellen har 7 milliarder parametre, arkitekturen fra LlaMa 2 7B og er... -
Named Entity Recognition dataset til Danske juridiske tekster
Named entity recognition dataset til Danske juridiske tekster er et datasæt bestående af 2415 sætninger fra dokumenter i domsdatabasen. Disse dokumenter er annoteret med 8... -
Hisia
ML Powered Danish Sentiment Model. -
NERDA
NERDA' er et værktøj (udgivet som Python-pakke) til at fine-tune NLP transformer-modeller til at identificere personer, organisationer, lokationer m.m. i tekster (=Named-Entity... -
Scandinavian Embedding Benchmark (SEB)
Scandinavian Embedding Benchmark (SEB), er en benchmarking platform til de Skandinaviske sprog (Dansk, Nynorsk, Bokmål, og Svensk). Benchmarket forsøger at evaluerer kvaliteten... -
ScandEval
ScandEval er en benchmarking platform for sprogmodeller på dansk, norsk (både bokmål og nynorsk), svensk, islandsk og færøsk. Den indeholder først og fremmest en benchmarking... -
Senda
Et værktøj til at fine-tune til NLP Transformers til sentiment analyse. Udkommer sammen med et sæt modeller fine-tunet til sentiment-analyse på dansk (udgivet på Hugging Face).... -
ScandiNER
ScandiNER er en NER (named entity recognition) model, som er bygget på den norske model fra det norske nationalbiblioteks AI labbet. Modellen er fin tunet på et kombineret... -
Heidrun-Mistral-7B-Chat
Heidrun-Mistral-7B-chat er en chat-baseret model, som bygger på Heidrun-Mistral-7B-base og er blevet finjusteret på OpenHermes og SkoleGPT instruktion/chat datasættene. Modellen... -
Heidrun-Mistral-7B
Heidrun-Mistral-7B-base er en generativ sprogmodel, som bygger på Mistral-7B og er blevet yderligere prætrænet på det danske Wikipedia, Wikibooks og små dele af hestenettet. Den... -
DaLUKE
DaLUKE er udviklet i forbindelse med et bachelorprojekt i Kunstig Intelligens og Data ved Danmarks Tekniske Universitet. DaLUKE er en dansk version af LUKE, som er en... -
Ælectra
Ælæctra er en transformer-baseret NLP sprogmodel, der er udarbejdet ved at benytte prætræningsmetoden ELECTRA-Small på The Danish Gigaword Projects datasæt (Der henvises til...
Du kan også tilgå dette register med API (se API-dokumenter).