O que um LLM rápido me ensinou sobre suposições

Translated for your language. Ler o original.

AI-assisted draft.

GyaanSetu Editorialhá 2 semanas2min de leitura

O que um LLM rápido me ensinou sobre suposições

Rodei um LLM barato e rápido em uma tarefa complexa por uma hora. Ele não falhou.

A maioria das pessoas pensa que modelos fracos falham em tarefas longas. Eles se perdem ou desistem no meio do caminho. Mas este modelo manteve o foco. Isso aconteceu porque eu lhe dei uma lista de entregáveis.

Eu pensei que esses entregáveis ajudariam na correção. Eu estava errado.

Um estudo mostra que entregáveis não tornam um modelo mais correto. Eles tornam um modelo mais verificável. O modelo documenta melhor o seu trabalho. Ele deixa evidências para você conferir.

Existem dois tipos de erros em software:

Erros de execução: Uma vírgula trocada ou um caso de borda esquecido. Você os corrige com testes e linting.
Erros de suposição: Colocar um limite no lugar errado. Isso é muito mais difícil de corrigir.

O processo ajuda com erros de execução. Não resolve erros de suposição. Se você e o modelo compartilham o mesmo ponto cego, sua revisão também falhará.

A IA muda a matemática desses erros.

No passado, um humano cometia erros lentamente. Isso lhe dava tempo para notar. Agora, uma IA comete erros rapidamente. Um modelo pode construir três horas de código perfeito sobre uma única suposição errada antes que você perceba.

Quanto mais capaz um modelo parece, mais você confia nele. Você o deixa rodar por mais tempo. Você para de verificar com tanta frequência. Isso é uma armadilha. Uma suposição errada não acende uma luz de alerta. Parece progresso até que seja tarde demais.

A indústria tenta corrigir isso com mais processos. Adicionamos mais especificações e mais planos. Isso é apenas mais sobrecarga (overhead). É uma ferramenta de execução para um problema de suposição.

Precisamos parar de medir com que frequência um modelo está certo. Precisamos medir quanto tempo uma suposição errada sobrevive antes de a detectarmos.

Em produção, chamamos isso de MTTD: Mean Time To Detect.

Não podemos impedir todos os erros. Podemos apenas tornar os erros mais baratos de corrigir. Você faz isso detectando-os cedo.

O objetivo não é apenas encontrar um modelo mais inteligente. O objetivo é decidir onde você ainda precisa ser aquele que mantém o controle.

Fonte: https://dev.to/g_correa/what-a-fast-llm-taught-me-about-assumptions-oe

Comunidade de aprendizado opcional: https://t.me/GyaanSetuAi

O que um LLM rápido me ensinou sobre suposições

Continuar lendo

Sua equipe não precisa de um modelo de IA melhor esta semana

Evaluating LLM Output Quality In Production

Eu Construí um Scanner de Segurança de IA — e Depois Encontrei um Bug no Meu Próprio Detector

Criei um scanner de segurança de IA — e então encontrei um bug no meu próprio detector