𝗚𝘂𝗮𝗿𝗱𝗿𝗮𝗶𝗹𝘀 𝗱𝗲 𝗟𝗟𝗠 𝗻𝗮 𝗣𝗿𝗮́𝘁𝗶𝗰𝗮: 𝗢 𝗤𝘂𝗲 𝗙𝘂𝗻𝗰𝗶𝗼𝗻𝗮

LLMs são imprevisíveis. Eles alucinam. Eles vazam dados. Eles geram conteúdo prejudicial.

Guardrails não controlam o modelo. Eles controlam o risco.

Você deve decidir quais guardrails importam e quais são apenas ruído.

Guardrails de Entrada

Entradas ruins levam a saídas ruins. Também levam a injeção de prompt (prompt injection).

  • Sanitização de padrões: Remova instruções como "ignore as instruções anteriores" logo no início.
  • Limites de comprimento: Defina o máximo de caracteres para evitar desperdício de tokens e timeouts.
  • Filtragem de conteúdo: Bloqueie tópicos como violência ou discurso de ódio. Use um modelo classificador pequeno em vez de uma simples correspondência de strings para maior precisão.

Guardrails de Saída

Você deve verificar o que o modelo envia de volta.

  • Validação de estrutura: Se você espera um JSON, verifique se os campos existem.
  • Filtragem de conteúdo: Escaneie as respostas em busca de padrões prejudiciais antes que o usuário as veja.
  • Verificação de fatos: Use um pipeline de recuperação (retrieval pipeline) para verificar afirmações em relação a uma base de conhecimento conhecida.

Guardrails de Sistema

Proteja sua infraestrutura e mantenha a conformidade.

  • Limitação de taxa (Rate limiting): Evite abusos limitando o número de requisições por janela.
  • Orçamento de tokens: Limite os custos por requisição para manter o orçamento.
  • Gerenciamento de contexto: Use janelas deslizantes (sliding windows) ou sumarização para evitar estouro de memória.
  • Log de auditoria: Registre todas as interações para depuração e conformidade.
  • Residência de dados: Garanta que os dados permaneçam nas regiões geográficas exigidas.

Quando usá-los

Use guardrails se estiver construindo sistemas voltados para o usuário ou lidando com dados sensíveis. Use-os para conformidade com GDPR, HIPAA ou SOC 2.

Pule-os se estiver prototipando ou construindo ferramentas internas sem dados sensíveis.

O tradeoff é simples:

  • Mais guardrails = Maior segurança, menor capacidade, maior latência.
  • Menos guardrails = Menor segurança, maior capacidade, menor latência.

Encontre o equilíbrio para o seu sistema específico.

Fonte: https://dev.to/rosgluk/llm-guardrails-in-practice-what-actually-works-54ph

Comunidade de aprendizado opcional: https://t.me/GyaanSetuAi