Trois étapes d'entraînement pour créer un chatbot

Construire un Transformer ne suffit pas. Vous pouvez y injecter tout l'internet et dépenser des millions en puissance de calcul. Vous finirez tout de même avec une machine incapable de répondre à une question simple.

Un modèle brut n'est qu'un imitateur de texte. Il prédit le mot suivant en se basant sur des motifs. Si vous lui demandez « Comment réinitialiser mon routeur ? », il pourrait répondre par d'autres questions comme « Comment changer mon mot de passe ? ». Il ne sait pas que vous demandez de l'aide. Il sait seulement comment internet complète une phrase.

Pour transformer ce prédicteur en chatbot, vous avez besoin de trois étapes d'entraînement.

  1. Pré-entraînement (Le moteur) Vous montrez au modèle des billions de mots. Vous cachez le dernier mot et vous le forcez à le deviner. Cela construit la connaissance. Il apprend les faits, la grammaire et la logique. Cela fonctionne parce que les données s'auto-étiquettent. L'échelle rend ce processus prévisible. Plus de données et plus de puissance de calcul mènent à de meilleurs résultats.

  2. Ajustement par instructions (Le script) Le modèle de base sait tout, mais n'a pas d'objectif. Lors de cette étape, vous lui montrez quelques milliers d'exemples d'un prompt associé à une bonne réponse humaine. Cela n'ajoute pas de nouvelles connaissances. Cela enseigne au modèle un nouveau comportement. Vous remettez un script à l'acteur. Il apprend à agir comme un assistant utile plutôt que comme un simple compléteur de texte.

  3. Ajustement par préférences (Le savoir-vivre) Les scripts sont limités. On ne peut pas écrire une règle pour chaque situation. Lors de cette étape, vous présentez au modèle deux réponses différentes et vous laissez un humain choisir la meilleure. Le modèle apprend à viser un score élevé basé sur le goût humain. Cela donne au modèle son ton, sa politesse et ses limites de sécurité.

Le résumé est simple :

  • Le pré-entraînement construit la connaissance.
  • L'ajustement par instructions distingue l'assistant de la foule.
  • L'ajustement par préférences ajoute le jugement et le savoir-vivre.

La personnalité que vous voyez dans une fenêtre de chat n'est qu'une fine couche superposée à un prédicteur de mots brut. Nous n'avons pas eu besoin d'une théorie de l'intelligence pour construire cela. Nous avons eu besoin d'un objectif simple, de l'échelle et de deux étapes de coaching.

Source : https://dev.to/karthi_raman_02ec8161bda0/three-rounds-of-training-turn-a-word-predictor-into-a-chatbot-none-of-them-are-magic-395i

Communauté d'apprentissage optionnelle : https://t.me/GyaanSetuAi