Seu LLM acertou, mas acertou pelo motivo certo?

Translated for your language. Ler o original.

AI-assisted draft.

há 4 horas2min de leitura

Seu LLM estava certo, mas ele estava certo pelo motivo certo?

Eu construí um benchmark para ver se um LLM consegue interpretar variantes genéticas clínicas.

Os resultados iniciais pareceram ruins. O modelo obteve 60% de precisão. Quase concluí que o modelo era medíocre e inadequado para uso.

Eu estava errado.

O verdadeiro insight só apareceu quando parei de medir a precisão e comecei a medir a segurança.

Na genética clínica, uma resposta errada pode ser perigosa. Existem dois tipos de erros:

Abstenção segura: O modelo diz "incerto" quando a verdade é uma conclusão definitiva. Isso é seguro porque um humano irá investigar.
Erro confiante: O modelo toma a decisão oposta (por exemplo, classificar uma variante causadora de doença como "benigna"). Isso é uma falha perigosa.

Meu benchmark mostrou que o modelo teve zero erros confiantes. Ele nunca cometeu um erro perigoso. Ele simplesmente optou por ficar em silêncio quando não tinha evidências suficientes.

Quando usei uma métrica simples de precisão, rotulei um modelo seguro e bem calibrado como um fracasso. Minha métrica era o problema, não o modelo.

Se você constrói benchmarks para áreas de alto risco, como medicina, direito ou finanças, siga estas regras:

Separe falhas seguras de falhas perigosas. Nunca coloque um "não sei" honesto no mesmo grupo que uma mentira confiante.
Audite o raciocínio. A precisão sozinha não mostra se um modelo está fabricando evidências ou seguindo a lógica.
Mantenha suas evidências reais. Não injete dados falsos em seus testes. Se sua avaliação usa dados falsos, você não pode

Seu LLM acertou, mas acertou pelo motivo certo?

Continuar lendo

𝗕𝘂𝗶𝗹𝗱𝗶𝗻𝗴 𝗗𝗼𝗺𝗮𝗶𝗻 𝗦𝗽𝗲𝗰𝗶𝗳𝗶𝗰 𝗟𝗟𝗠 𝗘𝘃𝗮𝗹 𝗦𝗲𝘁𝘀

Simulação de Alinhamento em LLMs

𝗧𝗵𝗲 𝗟𝗟𝗠 𝗕𝗲𝗻𝗰𝗵𝗺𝗮𝗿𝗸 𝗟𝗶𝗲

Vulnerabilidades de LLM 101

𝗤𝘄𝗲𝗻 𝟮.𝟱 𝟳𝗕 𝗖𝗼𝗻𝗳𝗶𝗱𝗲𝗻𝗰𝗲 𝗜𝘀 𝗨𝗻𝗿𝗲𝗹𝗶𝗮𝗯𝗹𝗲