Skip to main content

23 sprogressourcer fundet

Licenser: MIT License

Filtrér resultater
  • scandi-fine-web-cleaner

    Denne model er en demoklassifikator til at identificere problematisk indhold (forkert sprog, forvrænget tekst) i danske og svenske webtekster. Modellen blev udviklet som en del...
  • Synthetic from Text Matching Long Tasks Danish

    The purpose of this dataset is to pre- or post-train embedding models for Danish text matching tasks. The dataset consists of 100,000 samples generated with gemma-2-27b-it. The...
  • Synthetic from Classification Tasks Danish

    The purpose of this dataset is to pre- or post-train embedding models for Danish text classification tasks. The dataset consists of 100,000 samples generated with...
  • Synthetic from Text Matching Short Tasks Danish

    The purpose of this dataset is to pre- or post-train embedding models for Danish text matching tasks on short texts. The dataset consists of 100,000 samples generated with...
  • Synthetic from Retrieval Tasks Danish

    The purpose of this dataset is to pre- or post-train embedding models for Danish retrieval tasks. The dataset consists of 100,000 samples generated with gemma-2-27b-it. The...
  • Synthetic from Unit Triple Tasks Danish

    The purpose of this dataset is to pre- or post-train embedding models for Danish on text similarity tasks. The dataset consists of 100,000 samples generated with gemma-2-27b-it....
  • Syntetisk dialog opsummering raw

    Thanks to NVIDIA and Arrow Denmark for sponsoring the compute needed to generate this dataset This dataset conists of 1,000,000 synthetic dialogs in Danish and a summary of each...
  • Danoliterate Mistral 7B

    Modellen "Danoliterate Mistral 7B" er en stor sprogmodel tilpasset fra Mistral AI's Mistral 7B på en blanding af dansk data. Modellen har 7 milliarder parametre og er en...
  • Danoliterate Baseline Model 7B

    Modellen "Danoliterate Baseline 7B" er en stor sprogmodel trænet fra bunden på en blanding af dansk data. Modellen har 7 milliarder parametre, arkitekturen fra LlaMa 2 7B og er...
  • Named Entity Recognition dataset til Danske juridiske tekster

    Named entity recognition dataset til Danske juridiske tekster er et datasæt bestående af 2415 sætninger fra dokumenter i domsdatabasen. Disse dokumenter er annoteret med 8...
  • Hisia

    ML Powered Danish Sentiment Model.
  • NERDA

    NERDA' er et værktøj (udgivet som Python-pakke) til at fine-tune NLP transformer-modeller til at identificere personer, organisationer, lokationer m.m. i tekster (=Named-Entity...
  • Scandinavian Embedding Benchmark (SEB)

    Scandinavian Embedding Benchmark (SEB), er en benchmarking platform til de Skandinaviske sprog (Dansk, Nynorsk, Bokmål, og Svensk). Benchmarket forsøger at evaluerer kvaliteten...
  • ScandEval

    ScandEval er en benchmarking platform for sprogmodeller på dansk, norsk (både bokmål og nynorsk), svensk, islandsk og færøsk. Den indeholder først og fremmest en benchmarking...
  • Senda

    Et værktøj til at fine-tune til NLP Transformers til sentiment analyse. Udkommer sammen med et sæt modeller fine-tunet til sentiment-analyse på dansk (udgivet på Hugging Face)....
  • ScandiNER

    ScandiNER er en NER (named entity recognition) model, som er bygget på den norske model fra det norske nationalbiblioteks AI labbet. Modellen er fin tunet på et kombineret...
  • Heidrun-Mistral-7B-Chat

    Heidrun-Mistral-7B-chat er en chat-baseret model, som bygger på Heidrun-Mistral-7B-base og er blevet finjusteret på OpenHermes og SkoleGPT instruktion/chat datasættene. Modellen...
  • Heidrun-Mistral-7B

    Heidrun-Mistral-7B-base er en generativ sprogmodel, som bygger på Mistral-7B og er blevet yderligere prætrænet på det danske Wikipedia, Wikibooks og små dele af hestenettet. Den...
  • DaLUKE

    DaLUKE er udviklet i forbindelse med et bachelorprojekt i Kunstig Intelligens og Data ved Danmarks Tekniske Universitet. DaLUKE er en dansk version af LUKE, som er en...
  • Ælectra

    Ælæctra er en transformer-baseret NLP sprogmodel, der er udarbejdet ved at benytte prætræningsmetoden ELECTRA-Small på The Danish Gigaword Projects datasæt (Der henvises til...
Du kan også tilgå dette register med API (se API-dokumenter).