Første tekst-til-tale datasæt fra CoRal-projektet ude nu!

18. april 2024
Dekorativt indhold.

Så er der godt nyt for de danske tekst-til-tale modeller! Det første datasæt fra CoRal-projektet med 48 timers tale med transskription, er for ganske nyligt blevet offentliggjort!


Datasættet er lavet af to professionelle indlæsere, som hver har oplæst 24 timer af forskellige danske tekster. Primærteksterne kommer bl.a. fra sundhed.dk, borger.dk og lex.dk og dækker derfor en række forskellige domæner og områder. Desuden er alle busstoppesteder og stationer i Danmark, samt datoer og tider også blevet oplæst


For at dække det mere naturlige sprog i datasættet, har man manuelt filtreret en række kommentarer fra Reddit, som også læses op. Der er derfor god mulighed for at eksperimentere med datasættet og undersøge forskellige former for brug i mange forskellige projekter. 


CoRal (Danish Conversational and Read-aloud Speech Dataset) er et større samarbejdsprojekt mellem Alexandra Instituttet, Digitaliseringsstyrelsen, Datalogisk Institut, Københavns Universitet - DIKU, Alvenir og Corti. Målsætningen er at tilvejebringe 1000-1500 timers annoteret samtale og oplæst tale, der har bred repræsentation af danske dialekter og talestile og dækker forskellige domæner. Data vil løbende blive udgivet i takt med, at projektet skrider frem. 


Du kan læse mere og finde datasættet hos Alexandra Instituttet her.

Eller tilgå datasættet vi sprogteknologi.dk


Billedet i artiklen er AI generet ved prompten "Illustration combining data and sound waves"