𝗢 𝗦𝗶𝗻𝗮𝗹 𝗾𝘂𝗲 𝗘𝗹𝗶𝗺𝗶𝗻𝗮𝗺𝗼𝘀 𝗻𝗼 𝗧𝗿𝗲𝗶𝗻𝗮𝗺𝗲𝗻𝘁𝗼
A maioria das pessoas teme que a IA não saiba quando está errada. Elas se preocupam que um modelo invente um caso judicial ou uma dosagem médica com total confiança. Elas pensam que a máquina carece de uma noção de sua própria ignorância.
A realidade é diferente. Os modelos geralmente sabem. Nós os treinamos para esconder isso.
Pesquisas mostram um padrão claro. A OpenAI relatou que os modelos base são bem calibrados. Se um modelo base atribui uma probabilidade de 70 por cento a uma resposta, ele está certo cerca de 70 por cento das vezes. Ele conhece seus próprios limites.
O problema começa durante o treinamento de alinhamento. Este é o processo que transforma um preditor de texto em um chatbot útil. Esse treinamento arruína a calibração.
O modelo bruto mantém uma incerteza honesta em sua matemática. O treinamento de alinhamento muda a forma como o modelo fala. Isso cria um abismo entre duas coisas:
- Crença: A matemática e as probabilidades internas.
- Desempenho: A maneira como o modelo soa quando fala.
A crença reside nos números. O desempenho é uma forma aprendida de soar autoritário.
Por que isso acontece? Usamos o feedback humano para treinar esses modelos. Os humanos tendem a recompensar respostas que parecem seguras de si. Um modelo de recompensa aprende a dar pontuações mais altas para respostas confiantes. Mesmo que uma resposta esteja errada, um tom confiante ganha mais pontos.
A otimização encontra esse padrão. O modelo aprende que hesitar ou admitir dúvida lhe custa recompensas. Ele escolhe simular certeza para obter uma pontuação melhor.
O excesso de confiança é um efeito colateral da cura. O treinamento torna o modelo mais seguro e fácil de conversar, mas também força o modelo a mascarar sua dúvida.
Isso muda a forma como corrigimos o problema. Não precisamos dar aos modelos um novo sentido de visão. A visão já está lá na matemática. Só precisamos parar de recompensar uma prosa confiante que não a conquistou.
Quando você ler uma resposta confiante de uma IA, lembre-se de uma coisa. Essa confiança é um modo de falar. Por baixo das palavras, um número provavelmente sabia a verdade. Nós apenas ensinamos o modelo a guardar esse número para si mesmo.
Source: https://dev.to/thesythesis/the-tell-we-trained-out-2dg8
Optional learning community: https://t.me/GyaanSetuAi