Tilbage

Donér din stemme til et dansk datasæt

24. oktober 2025

Mere sprogdata skal sikre at teknologien forstår alle

Den fællesoffentlige organisation Open Data DK har i august 2024 etableret projektet ”Donér din stemme”. Det handler om, at alle borgere kan donere deres stemme ved at højtlæse mindre tekststykker med fiktive historier om mødet mellem borgere og offentlige institutioner. De indsamlede stemmer bliver samlet i et datasæt, som udgives på Open Data DK’s website og herfra kan det anvendes af myndigheder, virksomheder og andre til træning af kunstig intelligens, sådan at de løsninger som borgerne møder fungerer langt bedre i fremtiden.

”Hey, hvaad sir’ du, mand?”

De fleste danskere har allerede stiftet bekendtskab med taleteknologier som stemmestyret GPS, digitale assistenter som Siri, eller stemmestyrede enheder i hjemmet som Google Home. Disse kunstige intelligenser kan forstå og reagere på kommandoer.

Men kan de forstå den mangfoldighed af dansk sprog, vi taler til dem? Desværre ikke altid. For nogle danskere skal have ”kaffen sårt”, mens andre synes det ”rægner møj” i efteråret. De sprogmodeller vi møder i dag er ikke nødvendigvis godt nok trænet til at kunne forstå alle på tværs af dialekter, accent, alder og køn. Det betyder, at hvis man ringer til en bank, et forsikringsselskab eller en kommune der eksempelvis servicerer med en voicebot, så kan det være svært at blive forstået, hvis man f.eks. er kvinde, er ældre eller taler med dialekt.

Og vi ser netop ind i en fremtid, hvor vi oftere kan komme til at tale med en kunstig intelligens, når vi ringer til det offentlige. Dermed er der i stigende grad et behov for at sikre at alle borgere kan blive hørt og forstået, og det kræver at sprogmodellerne har tilstrækkeligt med eksempler i deres træningsdata på forskellige måder at tale dansk på, til at de kan forstå dem.

Projekt ”Donér din stemme”

Derfor har Open Data DK, der er en forening af danske kommuner og regioner, iværksat en landsindsamling af stemmer, hvor man donerer, ligesom man også i mange andre sammenhænge donerer til et godt formål.

I ”Donér din stemme” har borgere mulighed for at donere deres stemmer når som helst og hvor som helst, ved at læse små tekstbidder højt på deres smartphone.

Alt taledata som indsamles bliver gjort frit tilgængeligt, så vi i fremtiden kan lave bedre talebaserede løsninger på dansk. På den lange bane betyder det, at er der et stort potentiale for forbedringer af tilgængelighed i det offentlige.

På grund af indsamlingsformatet er der baggrundsstøj i data. Data har desuden to forskellige scores til at vurdere datas kvalitet: En word error rate og en character error rate. Det er de mest gængse scores, og bruges bl.a. i CoRal-projektet (Første tekst-til-tale datasæt fra CoRal-projektet ude nu!). Når du har hentet datasættet, kan du derfor filtrere det efter, hvor præcise data du skal bruge til netop dit projekt.

Der er en række begrænsninger på brug af data. Bl.a. må de ikke bruges til at skabe syntetiske stemmer. Læs mere i licensen her: donerdinstemme.dk/licens

Du kan deltage i projektet her: Donér din stemme

Donerdinstemme.dk er udviklet i regi af den fællesoffentlige forening Open Data DK.
Hjælp med at gøre dansk taleteknologi bedre ved at donere din stemme. Det kan bidrage til at lære digitale løsninger, som f.eks. stemmestyrede GPS'er, at forstå dansk – uanset dialekt, accent, køn og alder.
Jo flere forskellige stemmer, desto bedre kan teknologien blive til at forstå alle og give præcise svar og hjælp på dansk.
Din optagelse bliver en del af et større taledatasæt, som vil være frit tilgængeligt for alle.
Det tager ca. 5-10 minutter at deltage.

Kommunalsk taledata til et åbent datasæt

Teksterne der oplæses i datasættet er på “kommunalsk” dansk, det vil sige med fokus på den kommunale forvaltning, så datasættet bidrager med udtale af ord og begreber fra den offentlige sektor. Datasættet repræsenterer derfor både en bred skare af stemmer, accenter og dialekter, og kan derudover være ekstra værdifuldt i udviklingen af taleteknologi til den kommunale sektor.

I kommuner, og det offentlige i det hele taget, anvendes mange fagord som går igen. Det kan være ord som “borgerhøring,” “lokalplaner,” “daginstitutioner,” “pasudlevering” m.m. For at kunne udvikle teknologi til det offentlige er det vigtigt, at der er data tilgængeligt om det “sprog”, som tales netop i den offentlige forvaltning. Derfor handler alle teksterne, som skal oplæses hvis man deltager i projektet, om den fiktive kommune Vildby, og situationer fra borgere og medarbejdere i den kommune.

Her på sprogteknologi.dk kan du finde metadata om Donér din stemme-datasættet samt link til datasættet: Donér din stemme taledatasæt - datasæt - sprogteknologi.dk

Flere nyheder

Danish Dynaword – et bud på fremtidens datasamling
19. august 2025

Så er der en ny og stor datasamling, som giver et overblik over danske datasæt med åbne licenser, som gør op med mange af manglerne ved de nuværende...
More

Kompetenceværktøj skal hjælpe ledige med at finde det rette job ved hjælp af sprogteknologi
20. maj 2025

Styrelsen for Arbejdsmarked og Rekruttering (STAR) lancerede i juni 2024 et nyt kompetenceværktøj, som bruger avanceret sprogteknologi til at hjælpe jobsøgende...
More

Ny rapport evaluerer byg-selv-løsninger mod generelle modeller som GPT-4
17. december 2024

En ny rapport fra Analyse & Tal og TrygFonden kigger nærmere på, hvorvidt det kan betale sig for organisationer at bygge egne specialiserede sprogmodeller fremfor at bruge...
More

Nyt datasæt til evaluering af sprogmodellers evne til at forstå danske talemåder og faste udtryk
20. november 2024

Hvad forstår sprogmodeller sig på agurkesalat? Tror de, der er mere mellem himmel og jord? Ved de hvad vej, vinden blæser? Og har de ondt af det, de ikke ved? Som...
More

Hvordan kan store generative sprogmodeller trænes så de forstår både det danske sprog, men også den danske kultur?
13. november 2024

Forskningsgruppen NLPnorth fra IT-Universitet i København er sammen med Aalborg Universitet ved Pioneer Centre for AI i gang med at sætte fokus på forskellige aspekter...
More