Tilbage

Nyt stort tekst- og taledatasæt kan nu tilgås via sprogteknologi.dk

7. oktober 2022

Der er i de sprogteknologiske miljøer stor efterspørgsel på sprogressourcer og sprogdata af høj kvalitet, der kan anvendes i forbindelse med udvikling af dansksproget tekst- og taleteknologi. Gennem et samarbejde med Nota, er det nu muligt at tilgå et stort datasæt på sprogteknologi.dk, som består af tekst- og lyddata på dansk.

Nota er et bibliotek og videncenter under Kulturministeriet, som beskæftiger sig med bøger og oplæsning for mennesker med syns- og læsehandicap ved at gøre trykte tekster tilgængelige i digitale formater fx via produktion af lydbøger og oplæsning af aviser, magasiner mv. Nota har doneret lyd- og tekstdata fra deres egne magasiner, så vi frit kan stille dem til rådighed som open source på sprogteknologi.dk. Jonas Manley, lydproduktionschef og konstitueret IT-chef hos Nota, fortæller:

”Nota ser store muligheder for vores brugere i dansk sprogteknologi. Vi er derfor meget glade for at kunne medvirke til, at der kommer gode data til brug for udvikling inden for feltet.”

Notas datasæt er netop blevet udstillet på sprogteknologi.dk, og det består af over 500 timers oplæsninger og følgende transskriptioner på dansk. Datasættet er af god kvalitet, hvilket en stikprøve foretaget af sprogteknologi.dk viser. Her opnår en testsample nemlig en WER (Word Error Rate) på 0,5 pct., hvilket vil sige, at testmaterialet har en fejlrate på 0,5 pct., hvor tekst og oplæsning ikke matcher helt. Derudover gør Nota brug af egenproduceret materiale, hvilket betyder, at datasættet ikke indeholder diskriminerende eller anden form for upassende indhold. I datasættet indgår indlæsninger af Notas eget blad ”Inspiration” samt radio- og tv-programmer, som er udgivet i perioden 2007 til 2022.

Kontorchef i Kontor for Teknologi og Data i Digitaliseringsstyrelsen, Nikolai Bülow Tronche, udtaler:

”Vi er super glade for samarbejdet med Nota, der betyder, at Digitaliseringsstyrelsen nu for første gang selv er udgiver af et tekst- og taledatasæt. Når vi er flere, der open sourcer datasæt, store som små, kan vi forhåbentlig bidrage til det arbejde, som mange dygtige folk hver dag gør for at udvikle og forbedre dansksproget kunstig intelligens til gavn for os alle”.

Vi håber, at udgivelsen af Notas tekst- og taledatasæt kan være med til at understøtte udviklingen af dansksproget kunstig intelligens.

Tilgå datasættet.

Hvis du har feedback eller ideer til forbedringer i forhold til datasættet, så er du meget velkommen til at kontakte os på info@sprogteknologi.dk eller på telefon 20 34 00 66.

Flere nyheder

Ny udgivelse af danske kommunale tekstdata til træning af sprogmodeller
25. februar 2026

Tekstdata fra fem danske kommuners byråds- og miljø- og teknikudvalgsmøder er netop blevet offentliggjort på sprogteknologi.dk. I forbindelse med et pilotprojekt...
More

Første udgivelse af data til træning af danske sprogmodeller
13. januar 2026

Digitaliseringsstyrelsen, Rigsarkivet og Det Kgl. Bibliotek har netop frigivet den første mængde af tekstdata, som kan anvendes til træning af danske sprogmodeller. Der...
More

Det har Sprogteknologi.dk lavet i 2025!
18. december 2025

År 2025 går på hæld, og det samme gør det syvende år, hvor Digitaliseringsstyrelsen har arbejdet med det nationale initiativ sprogteknologi.dk. Vi vil...
More

Workshop om behovet for data til sprogteknologiske løsninger
11. december 2025

Efterspørgslen på data til sprogteknologiske løsninger handler ikke alene om adgangen til data, men også om de rammer og forudsætninger, som gør, at...
More

Sprogteknologisk Konference 2025 er afholdt!
20. november 2025

Fredag den 14. november samlede Digitaliseringsstyrelsen og Center for Sprogteknologi for femte år i træk forskere, praktikere, myndigheder og andre fagfolk til årets...
More