7 ressourcer fundet

Licenser: Apache License 2.0 Organisationer: Øvrige

Filtrér resultater
  • DanskGPT-tiny er en 1,1 milliard parametre LLaMA baseret LLM. Træningen er en fortsættelse af TinyLLaMA. Modellen er trænet på 8 milliarder tokens af dansk syntetisk tekst....
    • BIN
  • Dansk tale-til-tekst model, baseret på OpenAI's Whisper v3 large. Modellen er trænet på flere danske datasæt og dækker ca. 300 timers dansk tale fra personer i alle...
    • safetensor
  • Context-aware-splitter er en model til retrieval augmented generation. Modellen er udviklet til at opdele tekster på den mest optimale måde givet en kontekst. Opdeling af...
    • BIN
  • Datasæt genereret vh.a. DanskGPT og brugt til at træne modellen Context-Aware-Splitter. Context-aware-splitter er en model til retrieval augmented generation. Modellen er...
    • Parquet
  • Ordia er en frontend/webapplikation, som udstiller Wikidatas leksikografiske data på en let, overskuelig og tilgængelig måde. Du kan bruge Ordia til at finde oplysninger om en...
    • HTML
  • DaCy er et framework til processering af dansk fritekst. Særligt indeholder den tre sprogprocesserings pipelines til dansk fritekst. De pipeline er af 3 forskellige størelser...
    • Python
  • DaAnonymization er en anonymiserings pipeline, der giver nem adgang til anonymisering af dansk tekst ved brug af DaCy's entitetsgenkendelse og regulære ekspressioner. Værktøjet...
    • Python