ÆLÆCTRA og NERDA – To nye sprogteknologiske værktøjer, der forstår dansk

5 Februar 2021

Det er ikke nogen hemmelighed, at udviklingen af sprogteknologi på dansk ikke er lige så nem som på de store sprog, fx engelsk eller kinesisk, hvor mængden af let tilgængelige sprogressourcer muliggør udvikling med speederen i bund. Manglende dansk sprogteknologi er desværre en unødig barriere for et digitalt Danmark af høj kvalitet og for udnyttelsen af det massive potentiale i nye teknologier.

Inden for de seneste par måneder er der dog blevet udviklet hele to nye og super interessante sprogteknologiske værktøjer på dansk, hvilket kan siges at være et lille tryk på gaspedalen.

Vi er utrolig glade for at kunne tilføje begge til samlingen af danske sprogressourcer på sprogteknologi.dk.

Malte Højmark-Bertelsen har udviklet Ælæctra, som er en transformer-baseret NLP model. Han har anvendt træningsmetoden Electra-small på The Danish Gigaword Corpus (www.gigaword.dk) og hans værktøj er allerede taget i brug af KMD i deres løsning ”Sager som min” til Nævnenes Hus. Fordelen ved Ælæctra er, at den kræver færre ressourcer til træning og processering, hvilket stiller færre krav til hardware og energiforbrug.

Det andet stykke sprogteknologiske værktøj er døbt NERDA og er udviklet af Lars Kjeldgaard og erhvervs- ph.d. Lukas Christian Nielsen, som er ansat hos Ekstra Bladet. NERDA er udgivet som en Python-pakke, som gør det let at opbygge og træne NER-modeller på flere forskellige sprog, herunder særligt dansk. NER (Named entity recognition) bruges allerede i mange sammenhænge til fx at identificere personer, steder, organisationer m.m. i store mængder tekstdata. NERDA har den fordel, at den er så enkel at anvende, at personer uden den helt store kodeerfaring kan træne deres egne NER modeller. Det kan her tilføjes, at NERDA’s egen NER-model fik tilfredsstillende resultater efter at være trænet på et datasæt med blot 5500 sætninger.

Ælæctra og NERDA fortæller en vigtig historie om, at det ikke kræver en kæmpemæssig techafdeling for at udvikle sprogteknologiske værktøjer på dansk. Det er glædeligt når efterspørgslen på dansk sprogteknologi er stigende. Ælæctra blev udviklet som et led i Malte Højmark-Bertelsens bachelorprojekt på Cognitive Science ved Aarhus Universitet, og NERDA er udviklet på et par måneder, hvor Lars Kjeldgaard gik på et indføringskursus i NLP.

Du kan læse mere om værktøjerne og tilgå dem her: NERDA og Ælæctra.

På sprogteknologi.dk arbejder vi for at gøre danske sprogressourcer lettere tilgængelige og skabe opmærksomhed omkring de ressourcer, der bliver udviklet. Af samme grund vil vi opfordre udviklere, dataindehavere og eksperter til at tage kontakt til os, hvis I har danske sprogressourcer som I gerne vil dele. Vi vil også gerne høre om use cases hvor danske sprogressourcer indgår i jeres organisationer, eller om løsninger, som kan inspirere andre til at anvende dansk sprogteknologi.