3 ressourcer fundet

Licenser: Apache License 2.0 Typer: Korpora

Filtrér resultater
  • Datasæt genereret vh.a. DanskGPT og brugt til at træne modellen Context-Aware-Splitter. Context-aware-splitter er en model til retrieval augmented generation. Modellen er...
    • Parquet
  • En word2vec2 model, som er trænet på omtrent 1300 timers dansk taledata fra podcasts og lydbøger. Modellen er trænet på 16kHz taledata, hvilket også er formatet, der skal...
    • BIN
  • Komma opdelt fil med fire ord på hver linje, hvor det fjerde ord er en semantisk outlier.
    • CSV