Paramos de confiar nos modelos. Depois, paramos de confiar em nossos próprios números.
Parei de perseguir modelos de IA melhores. Achei que um modelo mais forte consertaria meu sistema. Não consertou. O problema não era o modelo. O problema era o sistema.
Então percebi algo pior. Eu também não conseguia confiar em minhas próprias medições.
Eu vi três falhas diferentes:
- Uma suíte de testes que passava enquanto media o ambiente errado.
- Um gate que bloqueava o trabalho, mas fornecia estatísticas erradas.
- Um agente que reportava a contagem errada.
Cada falha parecia um sucesso até que eu olhasse mais de perto. Minhas ferramentas de verificação estavam mentindo para mim.
Meu primeiro instinto foi banir toda a incerteza. Eu queria remover cada elemento probabilístico. Eu queria que tudo fosse determinístico.
Isso foi um erro.
Se você remover toda a incerteza, você remove o valor da IA. A IA tem o objetivo de propor ideias e explorar correções. Você não consegue isso com uma regra rígida.
A solução não é banir a incerteza. A solução é colocá-la no lugar correto.
Um sistema precisa de dois assentos diferentes:
O Assento de Proposta Este assento explora e sugere. Ele precisa de não-determinismo. Se um modelo sugere uma correção errada, o custo é baixo porque ele ainda não decidiu nada.
O Assento de Julgamento Este assento decide se um teste passa ou se uma regra é cumprida. Este assento deve ser determinístico. Ele deve ser reproduzível e verificável.
As falhas no meu sistema aconteceram porque coloquei as coisas erradas no assento de julgamento. Deixei processos incertos tomarem decisões finais.
A regra é simples:
- Deixe as partes incertas explorarem.
- Deixe as partes determinísticas julgarem.
Não tente tornar todo o sistema certo. Em vez disso, certifique-se de que seus juízes sejam sólidos. Um juiz determinístico que está errado é mais perigoso do que um probabilístico. Um juiz errado cria um erro constante que, eventualmente, você para de questionar.
Cada camada que lhe confere confiança deve ser medida primeiro. Essa medição deve basear-se em algo determinístico que você possa testemunhar.
Como você traça a linha entre propor e julgar em seus sistemas de IA? Onde você insiste no determinismo?
Fonte: https://dev.to/josephyeo/we-stopped-trusting-models-then-we-stopped-trusting-our-own-numbers-1611
Comunidade de aprendizado opcional: https://t.me/GyaanSetuAi
