Três Rodadas de Treinamento Criam um Chatbot

Construir um Transformer não é suficiente. Você pode despejar a internet inteira nele e gastar milhões em computação. Você ainda acabará com uma máquina que não consegue responder a uma pergunta simples.

Um modelo bruto é apenas um imitador de texto. Ele prevê a próxima palavra com base em padrões. Se você perguntar "Como eu reinicio meu roteador?", ele pode responder com mais perguntas como "Como eu altero minha senha?". Ele não sabe que você quer ajuda. Ele apenas sabe como a internet continua uma frase.

Para transformar esse preditor em um chatbot, você precisa de três rodadas de treinamento.

  1. Pré-treinamento (O Motor) Você mostra ao modelo trilhões de palavras. Você esconde a última palavra e faz com que ele a adivinhe. Isso constrói o conhecimento. Ele aprende fatos, gramática e lógica. Isso funciona porque os dados se rotulam sozinhos. A escala torna isso previsível. Mais dados e mais computação levam a melhores resultados.

  2. Ajuste de Instrução (O Roteiro) O modelo base sabe tudo, mas não tem um objetivo. Nesta rodada, você mostra a ele alguns milhares de exemplos de um prompt pareado com uma boa resposta humana. Isso não adiciona novos conhecimentos. Isso ensina ao modelo um novo comportamento. Você está entregando um roteiro ao ator. Ele aprende a agir como um assistente prestativo em vez de apenas um completador de texto.

  3. Ajuste de Preferência (As Boas Maneiras) Roteiros são limitados. Você não pode escrever uma regra para cada situação. Nesta rodada, você mostra ao modelo duas respostas diferentes e deixa um humano escolher a melhor. O modelo aprende a buscar uma pontuação alta com base no gosto humano. Isso dá ao modelo seu tom, sua polidez e seus limites de segurança.

O resumo é simples:

  • O pré-treinamento constrói o conhecimento.
  • O ajuste de instrução escolhe o assistente em meio à multidão.
  • O ajuste de preferência adiciona o julgamento e as boas maneiras.

A personalidade que você vê em uma janela de chat é apenas uma camada fina sobre um preditor de palavras bruto. Não precisamos de uma teoria da inteligência para construir isso. Precisamos de um objetivo simples, escala e duas rodadas de treinamento.

Source: https://dev.to/karthi_raman_02ec8161bda0/three-rounds-of-training-turn-a-word-predictor-into-a-chatbot-none-of-them-are-magic-395i

Optional learning community: https://t.me/GyaanSetuAi