TNO, SURF en het Nederlands Forensisch Instituut (NFI) zijn begonnen met de training van GPT‑NL, een groot taalmodel ontwikkeld met publieke middelen.

Datafundament: gericht op transparantie en diversiteit
- GPT‑NL wordt getraind op een selectie van ongeveer 370 miljard teksttokens, afkomstig uit een bredere verzameling van zo’n 880 miljard.
- De dataset bestaat voor 10 % uit Nederlandstalige teksten, en verder uit Engels en andere West-Europese talen.
- Ook bevat de dataset 85 miljard tokens uit computercode, gericht op het verbeteren van logisch redeneren en codeerprestaties.
Technische uitvoering
De training vindt plaats op supercomputer Snellius van SURF. Deze machine beschikt over honderden GPU’s (NVIDIA H100 en A100), en wordt ingezet om het model stapsgewijs te trainen.
Doel en gebruik
GPT‑NL wordt ontwikkeld voor toepassingen waarin controle over data en transparantie centraal staan. Het model is bedoeld voor onderzoek, onderwijs en sectoren waar publieke verantwoording vereist is. Het project is expliciet géén commerciële tegenhanger van bestaande modellen, maar een aanvullend alternatief onder toezicht van publieke instellingen.
Vervolgtraject
- In 2025 volgen test- en evaluatiefases.
- Begin 2026 wordt het model beschikbaar gesteld, onder verschillende licentievoorwaarden voor publiek en commercieel gebruik.
- Alleen de trainingsdata en code worden volledig openbaar gedeeld; het uiteindelijke model zelf blijft gelicentieerd.
Voor wie is dit van belang?
- Organisaties die AI willen inzetten zonder afhankelijk te zijn van buitenlandse leveranciers.
- Sectoren waar transparantie, herleidbaarheid en juridische zekerheid cruciaal zijn.
- Nederlandse onderzoekers en ontwikkelaars die willen bouwen op een model met bekende oorsprong en gecontroleerde opbouw.
Kortom: GPT‑NL is niet zomaar een AI-project, maar een experiment in gecontroleerde, publieke ontwikkeling van taaltechnologie. De eerste trainingsfase markeert het begin van een traject dat moet uitwijzen in hoeverre een lokaal ontwikkeld model kan bijdragen aan verantwoorde inzet van AI in Nederland.