Tilbage

SpaCy - nu også med modeller på dansk

17. juni 2020

Dekorativt indhold.

Software-virksomheden Explosion har bygget videre på en række danske sprogressourcer og tilbyder nu spaCy v2.3 med modeller for fem nye sprog – heriblandt dansk. Du kan finde metadata om de danske sprogressourcer hér på sprogteknologi.dk.

Software-virksomheden Explosion har specialiseret sig i udviklingsværktøjer til understøttelse af kunstig intelligens og NLP (Natural Language Processing) og står bag spaCy, der er et open source library til avanceret NLP. Explosion tilbyder nu Version 2.3 af spaCy Natural Language Processing library, der bl.a. tilføjer modeller for fem nye sprog – heriblandt dansk. Træningsdata for bl.a. dansk er relativt små, så de prætrænede ordvektorer forbedrer nøjagtigheden ganske meget, især for navnegenkendelse (NER).

SpaCy bygger videre på danskudviklede datasæt

SpaCy’s nye danske modeller er trænet på bl.a. Danish Universal Dependencies DDT (Anders Johannsen, Héctor Martínez Alonso og Barbara Plank, 2015), der igen er en videreudvikling af CDT - The Copenhagen Danish English Dependency Treebank (Buch-Kromann et al, 2003), samt DaNe datasættet, hvor Alexandra Instituttet har tilføjet NER annoteringer til Danish Universal Dependencies Treebank (Hvingelby et al. 2020).

Opdaterede træningsdata

Alle spaCys træningskorpora baseret på Universal Dependencies korpora er blevet opdateret til UD v2.5. De opdaterede data forbedrer kvaliteten og størrelsen af træningskorpora og øger både modellernes tagger- og parser-nøjagtighed.

Tilgå spaCy’s danske modeller

Flere nyheder

Ny udgivelse af danske kommunale tekstdata til træning af sprogmodeller
25. februar 2026

Tekstdata fra fem danske kommuners byråds- og miljø- og teknikudvalgsmøder er netop blevet offentliggjort på sprogteknologi.dk. I forbindelse med et pilotprojekt...
More

Første udgivelse af data til træning af danske sprogmodeller
13. januar 2026

Digitaliseringsstyrelsen, Rigsarkivet og Det Kgl. Bibliotek har netop frigivet den første mængde af tekstdata, som kan anvendes til træning af danske sprogmodeller. Der...
More

Det har Sprogteknologi.dk lavet i 2025!
18. december 2025

År 2025 går på hæld, og det samme gør det syvende år, hvor Digitaliseringsstyrelsen har arbejdet med det nationale initiativ sprogteknologi.dk. Vi vil...
More

Workshop om behovet for data til sprogteknologiske løsninger
11. december 2025

Efterspørgslen på data til sprogteknologiske løsninger handler ikke alene om adgangen til data, men også om de rammer og forudsætninger, som gør, at...
More

Sprogteknologisk Konference 2025 er afholdt!
20. november 2025

Fredag den 14. november samlede Digitaliseringsstyrelsen og Center for Sprogteknologi for femte år i træk forskere, praktikere, myndigheder og andre fagfolk til årets...
More