Shopify gjør Karpathys autoresearch til driftsmodell

TL;DR

Shopifys CTO Mikhail Parakhin løfter fram autoresearch som arbeidsform flere bør bruke bredere. Nøkkelen er en god kritikk-loop, ikke flere parallelle agenter.

Autoresearch-loopen

Shopify CTO Mikhail Parakhin løfter i en ny Latent Space-episode fram autoresearch som en arbeidsform flere bør bruke langt bredere. Ideen er enkel: la modellen foreslå en endring, teste den mot en målbar effekt, kritisere resultatet og iterere videre uten at et menneske manuelt driver hvert steg.

Poenget er ikke bare «flere agenter» eller «mer tokenbruk». Parakhin advarer tvert imot mot parallelle agent-svermer som ikke snakker sammen. Det viktige er en god kritikk-loop: én del produserer, en annen vurderer, og systemet forbedrer seg over flere runder.

Tangent og Tangle hos Shopify

Hos Shopify dukker dette opp tydeligst i Tangent, bygget oppå Tangle. Tangle gjør eksperimenter reproduserbare, delbare og cachebare, mens Tangent lar agenter kjøre nye eksperimenter og optimalisere mot konkrete mål. Et eksempel Parakhin trekker fram er at søk gikk fra 800 til 4 200 QPS (queries per second) uten kvalitetstap.

Begrensningen

Begrensningen er også viktig: autoresearch er best på «åpenbare ting du ikke har båndbredde til å gjøre». Helt nye, out-of-distribution-problemer trenger fortsatt mennesker med tid til å tenke.

Før du skalerer til flere agenter, sett opp en loop for kritikk og evaluering. Bruk de sterkeste modellene på review, ikke nødvendigvis på førsteutkastet, og mål hvor mye av automatiseringen som faktisk går til vurdering versus bare generering.