Drei Trainingsrunden machen einen Chatbot

Ein Transformer reicht nicht aus. Man kann das gesamte Internet hineinfüttern und Millionen für Rechenleistung ausgeben. Am Ende hat man trotzdem eine Maschine, die keine einfache Frage beantworten kann.

Ein Rohmodell ist lediglich ein Text-Nachahmer. Es sagt das nächste Wort basierend auf Mustern voraus. Wenn man es fragt: „Wie setze ich meinen Router zurück?“, antwortet es vielleicht mit weiteren Fragen wie „Wie ändere ich mein Passwort?“. Es weiß nicht, dass man Hilfe möchte. Es weiß nur, wie das Internet einen Satz fortsetzt.

Um diesen Prädiktor in einen Chatbot zu verwandeln, benötigt man drei Trainingsrunden.

  1. Pretraining (Der Motor) Man zeigt dem Modell Billionen von Wörtern. Man verbirgt das letzte Wort und lässt es raten. Dies baut das Wissen auf. Es lernt Fakten, Grammatik und Logik. Das funktioniert, weil die Daten sich selbst labeln. Skalierung macht dies berechenbar. Mehr Daten und mehr Rechenleistung führen zu besseren Ergebnissen.

  2. Instruction Tuning (Das Skript) Das Basismodell weiß alles, hat aber kein Ziel. In dieser Runde zeigt man ihm einige tausend Beispiele eines Prompts, gepaart mit einer guten menschlichen Antwort. Dies fügt kein neues Wissen hinzu. Es lehrt das Modell ein neues Verhalten. Man überreicht dem Schauspieler ein Skript. Es lernt, sich wie ein hilfreicher Assistent zu verhalten, anstatt nur einen Text zu vervollständigen.

  3. Preference Tuning (Die Manieren) Skripte sind begrenzt. Man kann nicht für jede Situation eine Regel schreiben. In dieser Runde zeigt man dem Modell zwei verschiedene Antworten und lässt einen Menschen die bessere auswählen. Das Modell lernt, einen hohen Score basierend auf menschlichem Geschmack anzustreben. Dies verleiht dem Modell seinen Tonfall, seine Höflichkeit und seine Sicherheitsgrenzen.

Die Zusammenfassung ist einfach:

  • Pretraining baut das Wissen auf.
  • Instruction tuning hebt den Assistenten aus der Masse hervor.
  • Preference tuning fügt Urteilsvermögen und Manieren hinzu.

Die Persönlichkeit, die man in einem Chatfenster sieht, ist nur eine dünne Schicht über einem rohen Wort-Prädiktor. Wir brauchten keine Theorie der Intelligenz, um dies zu bauen. Wir brauchten ein einfaches Ziel, Skalierung und zwei Runden Coaching.

Source: https://dev.to/karthi_raman_02ec8161bda0/three-rounds-of-training-turn-a-word-predictor-into-a-chatbot-none-of-them-are-magic-395i

Optionale Lern-Community: https://t.me/GyaanSetuAi