Nyt stort tekst- og taledatasæt kan nu tilgås via sprogteknologi.dk

7. oktober 2022

Der er i de sprogteknologiske miljøer stor efterspørgsel på sprogressourcer og sprogdata af høj kvalitet, der kan anvendes i forbindelse med udvikling af dansksproget tekst- og taleteknologi. Gennem et samarbejde med Nota, er det nu muligt at tilgå et stort datasæt på sprogteknologi.dk, som består af tekst- og lyddata på dansk.Dekorativt indhold.

Nota er et bibliotek og videncenter under Kulturministeriet, som beskæftiger sig med bøger og oplæsning for mennesker med syns- og læsehandicap ved at gøre trykte tekster tilgængelige i digitale formater fx via produktion af lydbøger og oplæsning af aviser, magasiner mv. Nota har doneret lyd- og tekstdata fra deres egne magasiner, så vi frit kan stille dem til rådighed som open source på sprogteknologi.dk. Jonas Manley, lydproduktionschef og konstitueret IT-chef hos Nota, fortæller:

”Nota ser store muligheder for vores brugere i dansk sprogteknologi. Vi er derfor meget glade for at kunne medvirke til, at der kommer gode data til brug for udvikling inden for feltet.”

Notas datasæt er netop blevet udstillet på sprogteknologi.dk, og det består af over 500 timers oplæsninger og følgende transskriptioner på dansk. Datasættet er af god kvalitet, hvilket en stikprøve foretaget af sprogteknologi.dk viser. Her opnår en testsample nemlig en WER (Word Error Rate) på 0,5 pct., hvilket vil sige, at testmaterialet har en fejlrate på 0,5 pct., hvor tekst og oplæsning ikke matcher helt. Derudover gør Nota brug af egenproduceret materiale, hvilket betyder, at datasættet ikke indeholder diskriminerende eller anden form for upassende indhold.  I datasættet indgår indlæsninger af Notas eget blad ”Inspiration” samt radio- og tv-programmer, som er udgivet i perioden 2007 til 2022.

Kontorchef i Kontor for Teknologi og Data i Digitaliseringsstyrelsen, Nikolai Bülow Tronche, udtaler:

”Vi er super glade for samarbejdet med Nota, der betyder, at Digitaliseringsstyrelsen nu for første gang selv er udgiver af et tekst- og taledatasæt. Når vi er flere, der open sourcer datasæt, store som små, kan vi forhåbentlig bidrage til det arbejde, som mange dygtige folk hver dag gør for at udvikle og forbedre dansksproget kunstig intelligens til gavn for os alle”.

Vi håber, at udgivelsen af Notas tekst- og taledatasæt kan være med til at understøtte udviklingen af dansksproget kunstig intelligens.

Du kan finde datasættet her.

Hvis du har feedback eller ideer til forbedringer i forhold til datasættet, så er du meget velkommen til at kontakte os på info@sprogteknologi.dk eller på telefon 20 34 00 66.