Udgiver

Nationalbiblioteket i Norge

Nationalbiblioteket er en vigtigt kilde til viden i Norge. Bibliotekets arbejde omfatter indsamling, bevaring og tilgængeliggørelse af offentliggjort indhold indenfor alle typer...

Læs mere

Datasæt

The Norwegian Colossal Corpus

"The Norwegian Colossal Corpus (NCC) is a collection of multiple smaller Norwegian corpuses suitable for training large language models. We have done extensive cleaning on the datasets, and have made them available in a common format. The total size of the NCC is currently 45GB."

Bemærk, at NCC består af en samling af forskellige dataset, som er udgivet med forskellige licensbetingelser. Via dokumentationen for NCC kan du hurtigt få en oversigt over de forskellige licenser for de enkelte data.

Data og ressourcer

The Norwegian Colossal Corpushttp://publications.europa.eu/resource/authority/file-type/JSON
Tilgå ressourcen her.
Udforsk
- Gå til ressource

Nøgleord

Yderligere info

URI	https://data.gov.dk/dataset/lang/d447b3e1-1a1d-4f73-b132-44f7f95cb9ba
Destinationsside	https://huggingface.co/datasets/NbAiLab/NCC
Høstes af Datavejviser
Udgivelsesdato	04-05-2022
Seneste ændringsdato	27-05-2024
Opdateringsfrekvens	ubekendt
Dækningsperiode	/
Emne(r)	16.05.07 Sprog og retskrivning Uddannelse, kultur og sport
Adgangsrettigheder	offentlig
Overholder
Proveniensudsagn
Dokumentation	https://github.com/NbAiLab/notram/blob/master/guides/corpus_description.md