Ressourcer - sprogteknologi.dk

PIN Analytical

PIN Analytical er en klassifikationsmodel, som registrerer subjektivitet eller objektivitet i en given dansk tekst. Modellen er trænet og testet på Alexandra Instituttets...

BIN

Common Voice (Dansk)

Crowdsourced talekorpus på en lang række sprog. Korpusset er blevet skabt ved, at frivillige har doneret sætninger, oplæsninger af sætninger, samt validering af oplæsninger til...

MP3

Danmarks Administrative Geografiske Inddeling (DAGI)

Danmarks Administrative Geografiske Inddeling (DAGI) er et standardiseret referencedatasæt, som viser landets administrative inddelinger. DAGI-datasættet er ikke færdige...

GML
HTML

Danmarks Adresseregister (DAR)

Der er registreret ca. 3,5 millioner adresser i DAR og ca. 110.000 vejnavne. Der blev i 2017 oprettet ca. 52.000 nye adresser og 400 nye vejnavne, desuden ændres og nedlægges et...

XML
api/json
JSON

Dansk Wikiquote

Maskinlæsbar version af dumps fra den danske wikipedias citater. Se https://foundation.wikimedia.org/wiki/Terms_of_Use

XML

Dansk Wikisource

Maskinlæsbar version af dumps fra den danske wikipedia kilder. Se https://foundation.wikimedia.org/wiki/Terms_of_Use

XML

DK INSPIRE Named place

Danish Named Place data contain names on everything from the tree “Konge egen” and the city center to the peninsula Jutland. There are 140,000 Danish Named Places in total, all...

GML
WMS
XML

Danske Stednavne

Danske Stednavne er det officielle register for stednavne i Danmark og indeholder stednavne på alt lige fra træet Kongeegen og byen Centrum til øen Fyn. Der er cirka 140.000...

XML
JSON
GML

SMK Open

SMK Open arbejder på at stille hele Statens Museum for Kunsts værker til fri benyttelse ved at digitalisere og tilgængeliggøre museets værker. Lige nu er der mere end 111.000...

JSON
HTML

CVR-data

Data fra det Centrale Virksomhedsregister (CVR), som er statens register for virksomhedsoplysninger. CVR indeholder grunddata om virksomheder og deres produktionsenheder, dvs....

api/json

The Norwegian Colossal Corpus

"The Norwegian Colossal Corpus (NCC) is a collection of multiple smaller Norwegian corpuses suitable for training large language models. We have done extensive cleaning on the...

JSON

The language and genre of threats

Digitalisering og opmærkning af trusselsbreve til projektet 'Truslers sprog og genre', der bygger på en innovativ kombination af sprogvidenskab og genrestudier med det formål at...

XML

Udtaleordbog.dk

Udtaleordbog.dk er en online ordbog med danske ord og deres bøjningsformer transskriberet i IPA-lydskrift. Ordbogen gengiver både moderne udtale, konservativ udtale, mindre...

HTML
TXT

Udtræk og opmærkning af DanPASS

Data indeholder den oprindelige textgridinformation i DanPASS-korpusset og ekstra opmærkning af korpusset, omorganiseret i semikolonseparerede kolonner i en txt-fil.

TXT

Wikidata

The free knowledge base anyone can edit https://wikidata.org

api/json
JSON

DGT-Translation Memory

DGT-TM er en oversættelseshukommelse (sætninger og deres manuelt fremstillede oversættelse) på 24 sprog. Den indeholder segmenter fra den gældende fællesskabsret – EU-...

TMX

Autoriserede stednavne i Danmark

28.000 stednavne i Danmark der har en stavemåde som er autoriseret af Kulturministeriet som gældende retskrivning. Navnene kan fremsøges via applikationen stednavne.info hvis...

XLSL

AI-Aktindsigt: Skrab af Kommunale Hjemmesider

'Datasættet består af flere skrab af kommunale hjemmesider udarbejdet i forbindelse med arbejdet med AI-aktindsigt projektet. Skrabet er lavet på forskellige domæner fra flere...

XLSX

Lex.dk - open

Lex.dk-open er en samling af artikler fra Danmarks nationalleksikon, Lex.dk. Leksikonet er skrevet af danske forskere og andre fagpersoner, og er med flere end 230.000 artikler...

Parquet

COR.SEM

COR.SEM tilføjer semantisk information til en stor del af ordene i Det centrale ordregister COR-K og COR.EXT. I COR.SEM er oplysninger fra en række andre sprogressourcer samlet...

TSV
HTML
CSV

192 ressourcer fundet