Skip to main content

207 sprogressourcer fundet

Filtrér resultater
  • TV fra Folketinget

    TV-optagelser og livetransmissioner fra alle Folketingets møder i Folketingssalen samt fra høringer og samråd. Udgivet under følgende licensbetingelser:...
  • Folketingets Åbne Data

    Folketingets åbne data omfatter: metadata om sager og dokumenter i det parlamentariske arbejde i Folketingssalen samt udvalg fra oktober 2013 og fremefter. Herunder data om...
  • Retsinformation

    Retsinformation.dk er indgangen til det fælles statslige retsinformationssystem, der giver adgang til alle gældende love, bekendtgørelser og cirkulærer m.v. Der er også adgang...
  • DanskGPT-Tiny

    DanskGPT-tiny er en 1,1 milliard parametre LLaMA baseret LLM. Træningen er en fortsættelse af TinyLLaMA. Modellen er trænet på 8 milliarder tokens af dansk syntetisk tekst....
  • Context-Aware-Splits

    Datasæt genereret vh.a. DanskGPT og brugt til at træne modellen Context-Aware-Splitter. Context-aware-splitter er en model til retrieval augmented generation. Modellen er...
  • Hviske v2

    Hviske v2 er en state of the art dansk transskriptionsmodel der er trænet af syv.ai. Modellen er gratis at bruge, men sørg for at være opmærksom på at brugen falder indenfor...
  • Danoliterate Mistral 7B

    Modellen "Danoliterate Mistral 7B" er en stor sprogmodel tilpasset fra Mistral AI's Mistral 7B på en blanding af dansk data. Modellen har 7 milliarder parametre og er en...
  • CoRal - Danish Conversational and Read-aloud Dataset

    CoRal is a comprehensive Automatic Speech Recognition (ASR) dataset designed to capture the diversity of the Danish language across various dialects, accents, genders, and age...
  • Danoliterate Baseline Model 7B

    Modellen "Danoliterate Baseline 7B" er en stor sprogmodel trænet fra bunden på en blanding af dansk data. Modellen har 7 milliarder parametre, arkitekturen fra LlaMa 2 7B og er...
  • Danmarks Administrative Geografiske Inddeling (DAGI)

    Danmarks Administrative Geografiske Inddeling (DAGI) er et standardiseret referencedatasæt, som viser landets administrative inddelinger. DAGI-datasættet er ikke færdige...
  • HyggeSwag

    “HyggeSwag” er et evalueringsdatasæt til at foretager natursprogsvurderinger: At lade sprogsystemer vurdere hvilken ud af flere tekstfortsættelser er i overenstemmelse med almen...
  • #twitterhjerne

    "#twitterhjerne” er et spørgsmåls/svar-datasæt, der indeholder dansksprogede spørgsmålstweets, hver med en tilhørende række svar på spørgsmålet.
  • Danish WIT

    Datasættet er den danske del af WIT-Base datasættet, som blev udgivet af WikiMedia i 2021. WIT-Base er en modificeret udgave af WIT (Wikipedia Image Text), hvor billeder med...
  • Nordjylland News Image Captioning

    Oliver Kinch fra Alexandra Instituttet har kureret datasættet nordjylland-news-image-captioning med artikler fra TV2 Nord. Datasættet består af artiklernes billeder,...
  • Nordjylland News Summarization

    Oliver Kinch fra Alexandra Instituttet har kureret datasættet nordjylland-news-summarization med artikler fra TV2 Nord ved hjælp af mediehusets API. Datasættet har CC0 licens....
  • Scandi Reddit Filtered

    ScandiReddit er et filtrereet korpus bestående af kommentarer fra Reddit.com. Alle Reddit kommentarer fra december 2005 til oktober 2022 blev downloadet via PushShift, hvorefter...
  • Nota lyd- og tekstdata

    Datasættet indeholder både tekst- og taledata fra udvalgte dele af Nota's lydbogsbibliotek. Datasættet består af over 500 timers oplæsninger og medfølgende transskriptioner på...
  • DanPASS udtaleordbogen

    Udtaleordbog baseret på transskriptionerne i DanPASS-korpusset. Listen indeholder 67.285 transskriptioner af 2.232 fonologiske ord. Listen viser ortografisk ord,...
  • Citizenship Tests Da.

    “Citizenship Tests Da.” er et spørgsmåls/svar-datasæt, der strukturerer flere års indfødsrets- og medborgerskabsprøver til brug af evaluering af sprogmodeller på dansk....
  • Røst-315M

    RØST-315M is a speech recognition model based on the CoRal-dataset, and the model is a product of the CoRal-project. CoRal is a project that aims to produce datasets that are...
Du kan også tilgå dette register med API (se API-dokumenter).