The Norwegian Colossal Corpus

"The Norwegian Colossal Corpus (NCC) is a collection of multiple smaller Norwegian corpuses suitable for training large language models. We have done extensive cleaning on the datasets, and have made them available in a common format. The total size of the NCC is currently 45GB."

Bemærk, at NCC består af en samling af forskellige dataset, som er udgivet med forskellige licensbetingelser. Via dokumentationen for NCC kan du hurtigt få en oversigt over de forskellige licenser for de enkelte data.

Data og Distribution(er)

Yderligere info

Felt Værdi
Metadata sidst opdateret september 20, 2022, 15:19 (UTC)
Metadata oprettet maj 4, 2022, 07:50 (UTC)
Emne Sprog og retskrivning Uddannelse, kultur og sport
GUID d447b3e1-1a1d-4f73-b132-44f7f95cb9ba
Kontaktemail ai-lab@nb.no
Kontaktnavn Nasjonalbiblioteket Norge AI-Lab
Opdateret 21-01-2022
URI https://data.gov.dk/dataset/lang/d447b3e1-1a1d-4f73-b132-44f7f95cb9ba
Udgivelsesdato 24-11-2021
Dokumentation
Dataansvarlig organisation Nasjonalbiblioteket Norge AI-Lab