𝗚𝘂𝗮𝗿𝗱𝗿𝗮𝗶𝗹𝘀 𝗱𝗲 𝗟𝗟𝗠 𝗻𝗮 𝗣𝗿𝗮́𝘁𝗶𝗰𝗮: 𝗢 𝗤𝘂𝗲 𝗙𝘂𝗻𝗰𝗶𝗼𝗻𝗮
LLMs são imprevisíveis. Eles alucinam. Eles vazam dados. Eles geram conteúdo prejudicial.
Guardrails não controlam o modelo. Eles controlam o risco.
Você deve decidir quais guardrails importam e quais são apenas ruído.
Guardrails de Entrada
Entradas ruins levam a saídas ruins. Também levam a injeção de prompt (prompt injection).
- Sanitização de padrões: Remova instruções como "ignore as instruções anteriores" logo no início.
- Limites de comprimento: Defina o máximo de caracteres para evitar desperdício de tokens e timeouts.
- Filtragem de conteúdo: Bloqueie tópicos como violência ou discurso de ódio. Use um modelo classificador pequeno em vez de uma simples correspondência de strings para maior precisão.
Guardrails de Saída
Você deve verificar o que o modelo envia de volta.
- Validação de estrutura: Se você espera um JSON, verifique se os campos existem.
- Filtragem de conteúdo: Escaneie as respostas em busca de padrões prejudiciais antes que o usuário as veja.
- Verificação de fatos: Use um pipeline de recuperação (retrieval pipeline) para verificar afirmações em relação a uma base de conhecimento conhecida.
Guardrails de Sistema
Proteja sua infraestrutura e mantenha a conformidade.
- Limitação de taxa (Rate limiting): Evite abusos limitando o número de requisições por janela.
- Orçamento de tokens: Limite os custos por requisição para manter o orçamento.
- Gerenciamento de contexto: Use janelas deslizantes (sliding windows) ou sumarização para evitar estouro de memória.
- Log de auditoria: Registre todas as interações para depuração e conformidade.
- Residência de dados: Garanta que os dados permaneçam nas regiões geográficas exigidas.
Quando usá-los
Use guardrails se estiver construindo sistemas voltados para o usuário ou lidando com dados sensíveis. Use-os para conformidade com GDPR, HIPAA ou SOC 2.
Pule-os se estiver prototipando ou construindo ferramentas internas sem dados sensíveis.
O tradeoff é simples:
- Mais guardrails = Maior segurança, menor capacidade, maior latência.
- Menos guardrails = Menor segurança, maior capacidade, menor latência.
Encontre o equilíbrio para o seu sistema específico.
Fonte: https://dev.to/rosgluk/llm-guardrails-in-practice-what-actually-works-54ph
Comunidade de aprendizado opcional: https://t.me/GyaanSetuAi