CoRal kick-off: Nyt stort taledatasæt skal fremme dansk taleteknologi
17. april 2023Selvom Danmark er førende inden for offentlig digitalisering, så er der fortsat et behov for udvikling af dansk taleteknologi. Da Danmark er et lille sprogområde, risikerer vi at halte bagefter store sprog som engelsk grundet manglende data til at træne kunstig intelligens til at forstå dansk.
Med henblik på at styrke udviklingen inden for dansk taleteknologi, vil Alexandra Instituttet i samarbejde med Digitaliseringsstyrelsen, Københavns Universitet, Alvenir og Corti udvikle et såkaldt talekorpus kaldet Danish Conversational and Read-aloud Speech Dataset (CoRal). Projektet skal tilvejebringe et nyt stort dansk taledatasæt, som skal indeholde 1000-1500 timers annoteret samtale og oplæst tale, der har bred repræsentation af danske dialekter og talestile. Projektet skal derudover skabe nogle sprogmodeller, som fx tale-til-tekst og tekst-til-tale, der skal være med til at demonstrere mulighederne i at anvende taleteknologi. Data og modeller bliver offentligt tilgængelige som open source, så virksomheder og udviklere har mulighed for at bruge dem.
Projektet vil rekruttere 1500-2000 deltagere til at indtale højtoplæsning og samtale. Optagelserne finder sted i alle fem regioner i Danmark for at sikre data, der er repræsentativt for hele landet. Det er derfor vigtigt, at projektet får kontakt med deltagere med forskelligartede dialekter og på tværs af aldersgrupper og køn. Hvis du er interesseret i at have din stemme med i talekorpusset, kan du læse mere og tilmelde dig her.
Hvis du gerne vil vide mere om projektet, så afholder vi et kick-off møde d. 27. april 2023 kl. 15.00 på IT Universitetet i København, hvor projektets vision og processen for indsamling af taledata bliver præsenteret. Alle, der er interesserede i at høre mere om projektet og indsamlingen af data, er velkomne til at deltage i mødet. Her kan du også høre mere om, hvordan din stemme kan bidrage til projektet.
Du kan se programmet og tilmelde dig kick-off mødet her.