AI-tools maken ervaren ontwikkelaars tot 19% langzamer

Onderzoek onder open-source ontwikkelaars onthult verrassende resultaten over productiviteit

Een nieuwe studie van onderzoeksorganisatie METR heeft een verrassende ontdekking gedaan: binnen hun specifieke onderzoeksopzet maken AI-tools ervaren softwareontwikkelaars niet sneller, maar juist 19% langzamer. Deze bevinding staat haaks op de verwachtingen van zowel ontwikkelaars als experts in het veld, maar geldt specifiek voor het type taken dat in deze studie werd onderzocht.

Het onderzoek, uitgevoerd begin 2025, volgde 16 ervaren ontwikkelaars van grote open-source projecten terwijl zij werkten aan echte problemen uit hun repositories. Deze repositories hadden gemiddeld meer dan 22.000 sterren op GitHub en bevatten meer dan een miljoen regels code.

Gerandomiseerde studie toont tegenvallende resultaten

De onderzoekers gebruikten een gerandomiseerde controle-studie waarbij ontwikkelaars willekeurig werden toegewezen aan taken waarbij AI-tools wel of niet mochten worden gebruikt. In totaal werden 246 echte problemen – bugs, nieuwe functies en refactors – verdeeld over beide groepen.

Ontwikkelaars die AI mochten gebruiken, hadden toegang tot tools zoals Cursor Pro met Claude 3.5 en 3.7 Sonnet, destijds de meest geavanceerde modellen. Deze tools staan bekend om hun effectiviteit bij andere taken zoals brainstormen of documentatie, maar toonden binnen deze specifieke context van complexe open-source ontwikkeling andere resultaten. Taken duurden gemiddeld twee uur en werden volledig opgenomen.

Het meest opvallende resultaat was de kloof tussen verwachting en werkelijkheid. Ontwikkelaars verwachtten dat AI hen 24% sneller zou maken, maar bleken in werkelijkheid 19% langzamer te zijn. Nog opmerkelijker: zelfs na het ervaren van deze vertraging, geloofden ontwikkelaars nog steeds dat AI hen 20% sneller had gemaakt. Deze waarneming beschrijven de onderzoekers als een interessante psychologische observatie die vragen oproept over hoe mensen hun eigen productiviteit ervaren en meten.

Factoranalyse wijst op specifieke oorzaken

De onderzoekers analyseerden 20 mogelijke factoren die de vertraging zouden kunnen verklaren en vonden bewijs voor vijf belangrijke oorzaken. Experimentele fouten werden uitgesloten – ontwikkelaars gebruikten daadwerkelijk de nieuwste modellen, hielden zich aan hun toewijzing en leverden vergelijkbare kwaliteit code af met en zonder AI.

De vertraging bleef consistent over verschillende meetmethoden en subsets van de data. Dit suggereert dat het resultaat robuust is en niet te wijten is aan methodologische problemen.

Spanningsveld met benchmarks en anekdotes

De resultaten lijken in tegenspraak met indrukwekkende prestaties op AI-benchmarks en wijdverspreide anekdotische verhalen over AI-hulp. De onderzoekers stellen drie hypotheses voor om deze schijnbare tegenstrijdigheid te verklaren.

Ten eerste zou de studie de capaciteiten kunnen onderschatten door specifieke eigenschappen van de setting. Ten tweede zouden benchmarks en anekdotes de capaciteiten kunnen overschatten. Ten derde zouden alle drie de methodologieën correct kunnen zijn, maar verschillende subsets van taken meten.

Implicaties voor AI-ontwikkeling

Het onderzoek heeft belangrijke gevolgen voor het begrip van AI-impact op softwareontwikkeling, vooral voor AI-onderzoek en -ontwikkeling zelf. Extreem snelle AI-vooruitgang zou kunnen leiden tot problemen met toezicht en veiligheidsmaatregelen.

De onderzoekers zijn van plan vergelijkbare studies uit te voeren om trends in AI-versnelling of -vertraging te volgen. Deze evaluatiemethodologie zou moeilijker te manipuleren kunnen zijn dan traditionele benchmarks en geeft complementair bewijs gefocust op realistische implementatiescenario’s.

Het onderzoek benadrukt dat geen enkele meetmethode perfect is en dat diverse evaluatiemethodologieën nodig blijven om een compleet beeld te vormen van de huidige staat van AI en de richting waarin we bewegen. De resultaten gelden specifiek voor de onderzochte context en mogen niet zonder meer gegeneraliseerd worden naar alle vormen van softwareontwikkeling.

Gerandomiseerde studie toont tegenvallende resultaten

Factoranalyse wijst op specifieke oorzaken

Spanningsveld met benchmarks en anekdotes

Implicaties voor AI-ontwikkeling

Gerelateerde berichten

Musk plant AI-chatbot voor kinderen na controverses

Google’s AI-overzichten: Bedreiging voor mediabedrijven

Tweede Kamer eist opheldering over WeTransfer AI-controverse