Donér din stemme til et dansk datasæt
24. oktober 2025
Mere sprogdata skal sikre at teknologien forstår alle
Den fællesoffentlige organisation Open Data DK har i august 2024 etableret projektet ”Donér din stemme”. Det handler om, at alle borgere kan donere deres stemme ved at højtlæse mindre tekststykker med fiktive historier om mødet mellem borgere og offentlige institutioner. De indsamlede stemmer bliver samlet i et datasæt, som udgives på Open Data DK’s website og herfra kan det anvendes af myndigheder, virksomheder og andre til træning af kunstig intelligens, sådan at de løsninger som borgerne møder fungerer langt bedre i fremtiden.
”Hey, hvaad sir’ du, mand?”
De fleste danskere har allerede stiftet bekendtskab med taleteknologier som stemmestyret GPS, digitale assistenter som Siri, eller stemmestyrede enheder i hjemmet som Google Home. Disse kunstige intelligenser kan forstå og reagere på kommandoer.
Men kan de forstå den mangfoldighed af dansk sprog, vi taler til dem? Desværre ikke altid. For nogle danskere skal have ”kaffen sårt”, mens andre synes det ”rægner møj” i efteråret. De sprogmodeller vi møder i dag er ikke nødvendigvis godt nok trænet til at kunne forstå alle på tværs af dialekter, accent, alder og køn. Det betyder, at hvis man ringer til en bank, et forsikringsselskab eller en kommune der eksempelvis servicerer med en voicebot, så kan det være svært at blive forstået, hvis man f.eks. er kvinde, er ældre eller taler med dialekt.
Og vi ser netop ind i en fremtid, hvor vi oftere kan komme til at tale med en kunstig intelligens, når vi ringer til det offentlige. Dermed er der i stigende grad et behov for at sikre at alle borgere kan blive hørt og forstået, og det kræver at sprogmodellerne har tilstrækkeligt med eksempler i deres træningsdata på forskellige måder at tale dansk på, til at de kan forstå dem.
Projekt ”Donér din stemme”
Derfor har Open Data DK, der er en forening af danske kommuner og regioner, iværksat en landsindsamling af stemmer, hvor man donerer, ligesom man også i mange andre sammenhænge donerer til et godt formål.
I ”Donér din stemme” har borgere mulighed for at donere deres stemmer når som helst og hvor som helst, ved at læse små tekstbidder højt på deres smartphone.
Alt taledata som indsamles bliver gjort frit tilgængeligt, så vi i fremtiden kan lave bedre talebaserede løsninger på dansk. På den lange bane betyder det, at er der et stort potentiale for forbedringer af tilgængelighed i det offentlige.
På grund af indsamlingsformatet er der baggrundsstøj i data. Data har desuden to forskellige scores til at vurdere datas kvalitet: En word error rate og en character error rate. Det er de mest gængse scores, og bruges bl.a. i CoRal-projektet (Første tekst-til-tale datasæt fra CoRal-projektet ude nu!). Når du har hentet datasættet, kan du derfor filtrere det efter, hvor præcise data du skal bruge til netop dit projekt.
Der er en række begrænsninger på brug af data. Bl.a. må de ikke bruges til at skabe syntetiske stemmer. Læs mere i licensen her: donerdinstemme.dk/licens
|
|
Kommunalsk taledata til et åbent datasæt
Teksterne der oplæses i datasættet er på “kommunalsk” dansk, det vil sige med fokus på den kommunale forvaltning, så datasættet bidrager med udtale af ord og begreber fra den offentlige sektor. Datasættet repræsenterer derfor både en bred skare af stemmer, accenter og dialekter, og kan derudover være ekstra værdifuldt i udviklingen af taleteknologi til den kommunale sektor.
I kommuner, og det offentlige i det hele taget, anvendes mange fagord som går igen. Det kan være ord som “borgerhøring,” “lokalplaner,” “daginstitutioner,” “pasudlevering” m.m. For at kunne udvikle teknologi til det offentlige er det vigtigt, at der er data tilgængeligt om det “sprog”, som tales netop i den offentlige forvaltning. Derfor handler alle teksterne, som skal oplæses hvis man deltager i projektet, om den fiktive kommune Vildby, og situationer fra borgere og medarbejdere i den kommune.
Her på sprogteknologi.dk kan du finde metadata om Donér din stemme-datasættet samt link til datasættet: Donér din stemme taledatasæt - datasæt - sprogteknologi.dk
