Nu er det tid til at bidrage til dansk Common Voice talekorpus

30. september 2021

Non-profit organisationen Mozilla forsøger at crowdsource et talekorpus for en række sprog, herunder også dansk. Du kan bidrage til det danske talekorpus, ved at donere din stemme eller validere optagne stemmer.

Common Voice projektet forsøger at opbygge et talekorpus med hjælp fra ildsjæle og communities. Mozilla står for at facilitere, indsamle og strukturere data. Det hårde benarbejde har således være overladt til de frivillige ildsjæle, som har indsamlet og valideret tekstbidder, til korpussets tekstuelle del.

For Common Voices danske talekorpus har man nu iværksat lydindsamling, og du har muligheden for at hjælpe korpusset på vej. Det kræver blot, at du har en mikrofon, og så handler det ellers om at læse de angivne sætninger højt. Du kan dog også bidrage ved at lytte til allerede optagene oplæsninger og kvalitetsgodkende dem.

 

Bidrag til det danske Common Voice talekorpus


Hvorfor taledata er et yderst værdifuldt aktiv i dag
De nok mest eftertragtede sprogressourcer i dag er taleressourcer, dvs. lyddata af et givent sprogs udtale som matcher helt tæt med en transskription. Taleressourcer bruges til at træne de sprogmodeller der analyserer stemmer, hvilket giver mulighed for taleteknologi. Eksempler herpå er voice-bots, virtuelle assistenter og andre former for stemmestyring, hvor teknologi analyserer det sagte ord med henblik på at identificere kommandoer, således at teknologi kan igangsætte handling eller et svar. Fordi vi alle taler forskelligt kræves der store mængder lyddata, for at få sprogmodellen til at dække sproglige nuancer og få teknologien til at virke effektivt.

I forbindelse med indsamling af taledata er der en række forskellige juridiske og tekniske aspekter, som gør indsamlingsprocessen ressourcekrævende. Særligt for små- og mellemstore organisationer skaber det udfordringer ift. at kunne anskaffe sig den fornødne taledata til udvikling og ibrugtagning af taleteknologi

Det bliver interessant at følge med i, hvordan Common Voices talekorpus ender med at lyde, om end korpusset formentlig ikke vil være datamangelsproblematikken endeligt. Ikke desto mindre så kan et open-source talekorpus for dansk forhåbentligt give lidt bedre forudsætninger for udviklingen af dansk taleteknologi.