DaCy

DaCy er et framework til processering af dansk fritekst. Særligt indeholder den tre sprogprocesserings pipelines til dansk fritekst. De pipeline er af 3 forskellige størelser for at brugeren kan vælge mellem eget hastighed eller bedre prediktioner. Pipelinen er trænet og implementeret i SpaCy og har opnået den bedste performance på en række danske sprogteknologiske opgaver, heriblandt entitetsgenkendelse (Named-entity recognition), grammatisk tagging samt syntaktisk analyse (part-of-speech tagging og dependency parsing). Projektet indeholder både dokumentation over træning af modellen samt dokumentation for bruget af modellen. Foruden dens egne trænede modeller kan man i DaCy også benytte andre danske sprogteknologier heriblandt værktøjer til kvantificering af følelsesladet indhold i tekst.

Data og Distribution(er)

Yderligere info test

Felt Værdi
Destinationsside https://github.com/KennethEnevoldsen/DaCy
Metadata sidst opdateret december 8, 2022, 09:48 (UTC)
Metadata oprettet juni 1, 2021, 11:08 (UTC)
Datastatement Indledende resultater har vist at DaCy klarer sig bedre og på kvindelige og ikke-danske navne end sammenliglige danske modeller. Denne test er blevet udført af personer uden relation til DaCy projektet. For mere information se Martin Jespersens Benchmark på Fairness. https://github.com/martincjespersen/DaAnonymization
Documentation https://github.com/KennethEnevoldsen/DaCy
Emne Sprog og retskrivning Uddannelse, kultur og sport
Kontaktemail kenneth.enevoldsen@cas.au.dk
Kontaktnavn Kenneth Enevoldsen
Opdateret 28-05-2021
Opdateringsfrekvens kontinuerlig
Overholder https://spacy.io/usage/projects
Sprog Dansk
URI https://data.gov.dk/dataset/lang/fb005c42-555b-4a40-b502-94d3f57e3d3e
Udgivernavn Kenneth Enevoldsen
type https://data.gov.dk/concept/core/lang-resource-type/Tool
published 28-02-2021
usage "Databehandling", "Dataanalyse" "Entitetsgenkendelse", "grammatisk tagging", "syntaktisk analyse"