Avaliando a Qualidade da Saída de LLMs em Produção
Em março de 2023, o GPT-4 identificava números primos com 97,6% de precisão. Em junho de 2023, esse mesmo modelo caiu para 2,4% de precisão. Ninguém mudou o código. Ninguém mudou o prompt. O modelo simplesmente mudou.
Este é o problema central com LLMs em produção. Você não controla o modelo. É uma dependência que sofre deriva (drift). Se você não medir, seus usuários dirão que ele está quebrado.
Você não pode confiar em "vibes" ou no "parece bom para mim". Você precisa de sinais repetíveis.
O software tradicional é determinístico. Mesma entrada resulta na mesma saída. Os LLMs quebram essa regra. Eles são não-determinísticos e o conceito de "correto" é frequentemente impreciso.
Para gerenciar isso, você precisa de três camadas de avaliação:
- Evals offline: Execute um conjunto de testes fixo a cada mudança para detectar regressões.
- Verificações sem referência: Use sinais como detecção de alucinação quando não houver uma resposta "certa".
- Monitoramento de produção: Observe o tráfego real em busca de deriva e quedas de qualidade.
A base é um Golden Dataset. Não use amostras aleatórias. Use um conjunto curado de casos difíceis. Use entradas vazias, casos de borda (edge cases) estranhos e prompts adversários. 80 exemplos precisos superam 8.000 aleatórios.
Ao usar um LLM como juiz, fique atento a estes vieses:
- Viés de posição: Os juízes costumam favorecer a primeira resposta que veem. Corrija isso executando comparações em ambas as ordens.
- Viés de verbosidade: Os juízes recompensam respostas mais longas, mesmo que sejam menos claras.
- Viés de autoaperfeiçoamento: Os modelos preferem textos de sua própria família. Use diferentes famílias de modelos para julgar as saídas.
Para monitoramento em tempo real, use a RAG Triad para verificar:
- Fidelidade (Faithfulness): A resposta se mantém fiel ao contexto?
- Relevância da resposta: Ela aborda a pergunta?
- Relevância do contexto: O sistema buscou os documentos corretos?
Pare de tratar a qualidade do modelo como uma propriedade fixa. Trate-a como latência ou taxas de erro. Ela muda. Seu trabalho é notar quando ela deixa de ser boa.
Comece pequeno. Escreva 20 exemplos de ouro (golden examples). Use-os para controlar seus deploys. Adicione heurísticas de produção baratas mais tarde.
As equipes que dormem bem não são as que possuem os modelos mais inteligentes. São aquelas que sabem, em questão de uma hora, se o seu modelo ficou mais burro.
Fonte: https://dev.to/nazar_boyko/evaluating-llm-output-quality-in-production-39an
Comunidade de aprendizado opcional: https://t.me/GyaanSetuAi
