Datasæt

CoRal Models Platform

CoRal-Models er en kodebase, som gør det enkelt at finjustere prætrænede lydmodeller, såsom Wav2Vec 2.0 eller Whisper, på et eller flere datasæt med transskriberet lyddata. Både modelkonfigurationen samt datasætsammensætningen kan nemt konfigureres, som gør det muligt hurtigt at prøve flere kombinationer igennem for at opnå den mest optimale model. Kodebasen understøtter p.t. ASR (tale-til-tekst) modeller, men kommer også til at inkludere TTS (tekst-til-tale) modeller i fremtiden. Værktøjet kan anvendes til generel træning af lydmodeller.

Danish Conversational and Read-aloud Speech Dataset (CoRal) er et samarbejde mellem Alexandra Instituttet, Digitaliseringsstyrelsen, Datalogisk Institut, Københavns Universitet - DIKU, Alvenir. Projektet løber fra 2023-2025, hvor der vil blive indsamlet et taledatasæt med op til 1000-1500 timers samtale og oplæst tale fra et bredt og repræsentativt udsnit af befolkningen.

Data og ressourcer

This dataset has no data

Nøgleord

Yderligere info

URI	https://data.gov.dk/dataset/lang/334a9c1a-b1e5-4975-8e2f-44b909704e7d
Destinationsside	https://github.com/alexandrainst/coral_models
Høstes af Datavejviser
Udgivelsesdato	24-04-2023
Seneste ændringsdato	12-01-2024
Opdateringsfrekvens	ubekendt
Dækningsperiode	/
Emne(r)	16.05.07 Sprog og retskrivning 16.05.07.05 Sprogudvikling Uddannelse, kultur og sport
Adgangsrettigheder	offentlig
Overholder
Proveniensudsagn
Dokumentation	https://alexandrainst.github.io/coral_models/coral_models/data.html