Korpus med offentlige tekster fra Region Hovedstadens dokumentsamling
3. april 2024Nyt tekstdatasæt, som er velegnet til træning af sprogmodeller inden for det sundhedsfaglige domæne, er ude nu!
Digitaliseringsstyrelsen har i samarbejde med Syddansk Universitet taget fat i en åbent tilgængelig dokumentsamling fra Region Hovedstaden og skabt et tekstdatasæt på baggrund heraf.
De åbne tekster på Region Hovedstadens portal er blevet tilpasset til et maskinlæsbart format og samlet i ét tekstdatasæt. Tekstdatasættet egner sig til udvikling af sprogteknologi, som skal operere inden for det sundhedsfaglige domæne og indeholder en række ord og begreber, som oftest forekommer inden for sundhedsområdet.
Med udgangspunkt i de 15.829 åbne dokumenter er der blevet skabt et tekstkorpus som indeholder 9.941.236 tokens (opgjort ved orddeling). Vi håber hermed, at vi har gjort det lettere at anvende teksterne til udvikling af dansk sprogteknologi.
Du kan tilgå datasættet samt finde dokumentation her.