Wat een snel LLM me leerde over aannames

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial2 weken geleden2min read

Wat een snel LLM me leerde over aannames

Ik heb een uur lang een goedkoop, snel LLM op een complexe taak laten draaien. Het is niet gefaald.

De meeste mensen denken dat zwakke modellen falen bij langdurige taken. Ze raken de draad kwijt of geven halverwege op. Maar dit model bleef op koers. Dit kwam doordat ik het een lijst met deliverables gaf.

Ik dacht dat deze deliverables hielpen bij de juistheid. Ik zat ernaast.

Een studie toont aan dat deliverables een model niet correcter maken. Ze maken een model wel beter verifieerbaar. Het model documenteert zijn werk beter. Het laat bewijs achter dat jij kunt controleren.

Er zijn twee soorten fouten in software:

Executiefouten: Een verwisselde komma of een gemiste edge case. Deze los je op met tests en linting.
Aannamefouten: Een grens op de verkeerde plek plaatsen. Dit is veel moeilijker op te lossen.

Processen helpen bij executiefouten. Ze lossen aannamefouten niet op. Als jij en het model dezelfde blinde vlek delen, zal je review ook falen.

AI verandert de rekensom van deze fouten.

In het verleden maakte een mens langzaam fouten. Dit gaf je de tijd om het op te merken. Nu maakt AI fouten snel. Een model kan drie uur lang perfecte code bouwen op basis van één verkeerde aanname voordat je het doorhebt.

Hoe krachtiger een model lijkt, hoe meer je het vertrouwt. Je laat het langer draaien. Je controleert minder vaak. Dit is een valstrik. Een verkeerde aanname geeft geen waarschuwingssignaal. Het lijkt op vooruitgang totdat het te laat is.

De industrie probeert dit op te lossen met meer processen. We voegen meer specificaties en meer plannen toe. Dit is slechts extra overhead. Het is een executietool voor een aannameprobleem.

We moeten stoppen met meten hoe vaak een model gelijk heeft. We moeten meten hoe lang een verkeerde aanname overleeft voordat we hem ontdekken.

In productie noemen we dit MTTD: Mean Time To Detect.

We kunnen niet elke fout voorkomen. We kunnen fouten alleen goedkoper maken om op te lossen. Dat doe je door ze vroegtijdig te ontdekken.

Het doel is niet alleen om een slimmer model te vinden. Het doel is om te bepalen waar jij nog steeds degene moet zijn die de controle heeft.

Bron: https://dev.to/g_correa/what-a-fast-llm-taught-me-about-assumptions-oe

Optionele leercommunity: https://t.me/GyaanSetuAi

Wat een snel LLM me leerde over aannames

Continue reading

Je team heeft deze week geen beter AI-model nodig

Evaluating LLM Output Quality In Production

Ik heb een AI-beveiligingsscanner gebouwd — en vond toen een bug in mijn eigen detector

Ik heb een AI-beveiligingsscanner gebouwd — en vond toen een bug in mijn eigen detector