Nye sprogmodeller kan nu tilgås via sprogteknologi.dk

10. december 2021

Nedenfor får du et overblik over nogle af de seneste tilføjelser:

Alvenir open-sourcer ny wac2vec model
I sidste uge lancerede den nyopstartede virksomhed, Alvenir, en splinterny wav2vec model, som kan bruges til at udvikle taleteknologi med. Modellen er trænet på omtrent 1300 timers lyddata fra podcasts og lydbøger. Folkene bag Alvenir er langt fra ukendte inden for dansk sprogteknologi og taleteknologi. Det er nemlig den tidligere DanSpeech duo Martin Carsten Nielsen og Rasmus Arpe Fogh Egebæk, som har startet Alvenir.  

Analyse og Tal ude med model til at identificere anerkendelse
I sommers udstillede vi Analyse og Tals to modeller A&ttack og Ha&te, som kunne identificere had og sproglige angreb i tekst. Denne model blev udviklet i forbindelse med en større analyse af ”Angreb i den offentlige debat på Facebook". Nu har Analyse og Tal, i samarbejde med Trygheds Fonden, analyseret ”Anerkendelse i den offentlige debat på Facebook”. For at analysere de 63. mio indsamlede kommentarer fra diverse politikkeres og nyhedsmediers Facebooksider, har de udviklet modellen Rec&nition. Du finder Rec&nition modellen her.

Dansk udgave af Electra og ConvBERT
Derudover har vi tilføjet en dansk ConvBERT og Electra model. Conv-BERT er en videreudvikling af BERT modellen, som har mindsket træningsom-kostninger og model parametre, uden at gå på kompromis med kvaliteten. Electramodellen er en anden udbredt træningsmetod, som også har reduceret behovet for computerkræft ved brug. Begge transformermodeller er pre-trænet af Phillip Tamimi-Sarnikowski på omtrent 17,5 GB tekstdata. Modellerne er klar til at blive finjusteret til de opgaver, som de skal bruges til.  

DaLUKE
To studerende ved Danmarks Tekniske Universitet har i forbindelse med deres bachelorprojekt udviklet en dansk udgave af DaLUKE. I den forbindelse har de udgivet en dansk LUKE model prætrænet på Dansk Wikipedia, som også er blevet finjusteret til Named Entity Recognition.

Stadigvæk behov for udvikling af flere sprogdata
Som det kan ses, så begynder sprogmodeller og sprogteknologiske værktøjer at fylde mere og mere og det er en rigtig positiv udvikling. Det viser, at vi i Danmark har musklerne og hovederne til at løfte udviklingen af dansk sprogteknolo-gi.

Der skal fortsat ydes en indsats for at dele og udvikle danske sprogressourcer, da datakvalitet og datakvantit er af afgørende betydning for, hvor gode de danske sprogmodeller kan blive. Data sætter mængden rammerne for, hvad dansk sprog-teknologi kan lige nu og i fremtiden. Her handler det ikke nødvendigvis om at få et kæmpemæssigt datasæt stillet til rådighed. Det er omtrent ligeså vigtigt, at der stilles en række mindre forskellige typer af tekster, som må anvendes til sprog-teknologiske formål.

Husk at tage fat i os, hvis du sidder inde med sprogdata, og du er i tvivl om, hvordan det skal udgives. Det kan fx være en række dokumenter, der indeholder en masse dansk tekst, som ikke bliver brugt. På den måde kan du skabe bedre vilkår for og bidrage til at udviklingen af dansk sprogteknologi holdes gang.