Seu LLM estava certo, mas ele estava certo pelo motivo certo?
Eu construí um benchmark para ver se um LLM consegue interpretar variantes genéticas clínicas.
Os resultados iniciais pareceram ruins. O modelo obteve 60% de precisão. Quase concluí que o modelo era medíocre e inadequado para uso.
Eu estava errado.
O verdadeiro insight só apareceu quando parei de medir a precisão e comecei a medir a segurança.
Na genética clínica, uma resposta errada pode ser perigosa. Existem dois tipos de erros:
- Abstenção segura: O modelo diz "incerto" quando a verdade é uma conclusão definitiva. Isso é seguro porque um humano irá investigar.
- Erro confiante: O modelo toma a decisão oposta (por exemplo, classificar uma variante causadora de doença como "benigna"). Isso é uma falha perigosa.
Meu benchmark mostrou que o modelo teve zero erros confiantes. Ele nunca cometeu um erro perigoso. Ele simplesmente optou por ficar em silêncio quando não tinha evidências suficientes.
Quando usei uma métrica simples de precisão, rotulei um modelo seguro e bem calibrado como um fracasso. Minha métrica era o problema, não o modelo.
Se você constrói benchmarks para áreas de alto risco, como medicina, direito ou finanças, siga estas regras:
- Separe falhas seguras de falhas perigosas. Nunca coloque um "não sei" honesto no mesmo grupo que uma mentira confiante.
- Audite o raciocínio. A precisão sozinha não mostra se um modelo está fabricando evidências ou seguindo a lógica.
- Mantenha suas evidências reais. Não injete dados falsos em seus testes. Se sua avaliação usa dados falsos, você não pode