Tilbage

Nye sprogmodeller kan nu tilgås via sprogteknologi.dk

10. december 2021

Nedenfor får du et overblik over nogle af de seneste tilføjelser:

Alvenir open-sourcer ny wac2vec-model

I sidste uge lancerede den nyopstartede virksomhed, Alvenir,som kan bruges til at udvikle taleteknologi med. Modellen er trænet på omtrent 1300 timers lyddata fra podcasts og lydbøger. Folkene bag Alvenir er langt fra ukendte inden for dansk sprogteknologi og taleteknologi. Det er nemlig den tidligere DanSpeech duo Martin Carsten Nielsen og Rasmus Arpe Fogh Egebæk, som har startet Alvenir.

Tilgå Alvenirs model

Analyse & Tal ude med model til at identificere anerkendelse

I sommers udstillede vi Analyse og Tals to modeller A&ttack og Ha&te, som kunne identificere had og sproglige angreb i tekst. Denne model blev udviklet i forbindelse med en større analyse af ”Angreb i den offentlige debat på Facebook". Nu har Analyse og Tal, i samarbejde med Trygheds Fonden, analyseret ”Anerkendelse i den offentlige debat på Facebook”. For at analysere de 63. mio indsamlede kommentarer fra diverse politikkeres og nyhedsmediers Facebooksider, har de udviklet modellen Rec&nition.

Tilgå Rec&nition modellen her

Dansk udgave af Electra og ConvBERT

Derudover har vi tilføjet en dansk ConvBERT og Electra model. ConvBERT er en videreudvikling af BERT modellen, som har mindsket træningsomkostninger og model parametre, uden at gå på kompromis med kvaliteten. Electramodellen er en anden udbredt træningsmetod, som også har reduceret behovet for computerkræft ved brug. Begge transformermodeller er præ-trænet af Phillip Tamimi Sarnikowski på omtrent 17,5 GB tekstdata. Modellerne er klar til at blive finjusteret til de opgaver, som de skal bruges til.

Tilgå ConvBERT modellen Tilgå Electra modellen

DaLUKE

To studerende ved Danmarks Tekniske Universitet har i forbindelse med deres bachelorprojekt udviklet en dansk udgave af. I den forbindelse har de udgivet en dansk LUKE model prætrænet på Dansk Wikipedia, som også er blevet finjusteret til Named Entity Recognition.

Tilgå DaLuke

Stadigvæk behov for udvikling af flere sprogdata

Som det kan ses, så begynder sprogmodeller og sprogteknologiske værktøjer at fylde mere og mere og det er en rigtig positiv udvikling. Det viser, at vi i Danmark har musklerne og hovederne til at løfte udviklingen af dansk sprogteknologi.

Der skal fortsat ydes en indsats for at dele og udvikle danske sprogressourcer, da datakvalitet og datakvantit er af afgørende betydning for, hvor gode de danske sprogmodeller kan blive. Data sætter mængden rammerne for, hvad dansk sprogteknologi kan lige nu og i fremtiden. Her handler det ikke nødvendigvis om at få et kæmpemæssigt datasæt stillet til rådighed. Det er omtrent ligeså vigtigt, at der stilles en række mindre forskellige typer af tekster, som må anvendes til sprogteknologiske formål.

Husk at tage fat i os, hvis du sidder inde med sprogdata, og du er i tvivl om, hvordan det skal udgives. Det kan fx være en række dokumenter, der indeholder en masse dansk tekst, som ikke bliver brugt. På den måde kan du skabe bedre vilkår for og bidrage til at udviklingen af dansk sprogteknologi holdes gang.

Flere nyheder

Ny udgivelse af danske kommunale tekstdata til træning af sprogmodeller
25. februar 2026

Tekstdata fra fem danske kommuners byråds- og miljø- og teknikudvalgsmøder er netop blevet offentliggjort på sprogteknologi.dk. I forbindelse med et pilotprojekt...
More

Første udgivelse af data til træning af danske sprogmodeller
13. januar 2026

Digitaliseringsstyrelsen, Rigsarkivet og Det Kgl. Bibliotek har netop frigivet den første mængde af tekstdata, som kan anvendes til træning af danske sprogmodeller. Der...
More

Det har Sprogteknologi.dk lavet i 2025!
18. december 2025

År 2025 går på hæld, og det samme gør det syvende år, hvor Digitaliseringsstyrelsen har arbejdet med det nationale initiativ sprogteknologi.dk. Vi vil...
More

Workshop om behovet for data til sprogteknologiske løsninger
11. december 2025

Efterspørgslen på data til sprogteknologiske løsninger handler ikke alene om adgangen til data, men også om de rammer og forudsætninger, som gør, at...
More

Sprogteknologisk Konference 2025 er afholdt!
20. november 2025

Fredag den 14. november samlede Digitaliseringsstyrelsen og Center for Sprogteknologi for femte år i træk forskere, praktikere, myndigheder og andre fagfolk til årets...
More