Eu Implementei um Runbook de Contingência de IA Após uma Interrupção de 19 Dias
Seu modelo principal ficou offline por 19 dias. O que o seu fluxo de trabalho faz na primeira hora?
Ele falha? Ele trava? Ou ele é redirecionado para um backup e continua operando?
Se você não consegue responder a isso, você não tem um plano de resiliência. Você tem sorte. A sorte falha quando você mais precisa.
O Fable 5 ficou offline por 19 dias devido a controles de exportação. Após a interrupção, analisei minha própria configuração. Encontrei lacunas. Escrevi um runbook para corrigi-las.
Não espere pela próxima interrupção para escrever isso. Use estas três partes para construir sua proteção.
- Crie uma política de roteamento
Dizer "nós usamos o Claude" não é uma política. É um padrão.
Uma política real é um mapa. Ela decide qual tarefa vai para qual modelo. Tarefas em massa vão para modelos baratos. Tarefas complexas de agentes vão para modelos de alto raciocínio.
Tire esse mapa da sua cabeça e coloque em um arquivo. Use uma estrutura YAML como esta:
- bulk_classify: primary is Haiku, fallback is Gemini Flash
- long_agent_run: primary is Opus, fallback is Sonnet
- code_review: primary is Sonnet, fallback is GPT
Quando o modelo principal desaparece, o roteador sabe para onde enviar o trabalho. Ninguém precisa improvisar às 2 da manhã.
- Acumule suas reservas
Alguns fluxos de trabalho não podem parar. Para eles, você deve manter uma reserva.
O "plan-banking" significa que você gera saídas enquanto o modelo está ativo e barato. Você armazena essas saídas para usá-las durante um apagão.
Pense nisso como conservar alimentos no verão para comer durante uma tempestade de inverno.
Não acumule tudo. Isso é um desperdício de armazenamento. Acumule apenas os dois ou três fluxos de trabalho críticos que prejudicariam seu negócio se parassem.
- Execute um teste canary semanal
Um modelo de fallback que você nunca testa é apenas um palpite. Você deve provar que o backup funciona antes que a interrupção ocorra.
Configure um teste semanal. Execute seus prompts críticos no seu modelo de fallback. Se a taxa de aprovação cair abaixo do seu limite, receba um alerta imediatamente.
Você quer encontrar erros em uma quinta-feira tranquila, não durante uma interrupção de 19 dias.
Os riscos são reais. Regulamentações governamentais podem revogar licenças a qualquer momento. Você não pode prever qual modelo será restringido em seguida. Você só pode se proteger usando mais de um fornecedor.
Essas etapas são baratas em um dia calmo. Elas são impossíveis de fazer em meio ao pânico.
Qual destes três você tem anotado hoje? Não "nós poderíamos fazer". Eu quero dizer anotado agora mesmo.
Meu mapa de roteamento estava pronto. Meu canary de segunda fonte não existia até a semana passada.
Optional learning community: https://t.me/GyaanSetuAi
