GPT понятия не имеет, что значат слова
GPT не понимает язык. Она понимает числа.
Большинство людей объясняют механизм внимания (attention) с помощью метафор. Они используют стрелки или светящиеся связи. Но это работает не так.
Я проследил математику вручную. Я использовал реальные матричные умножения. Вот как на самом деле работает трансформер.
Процесс начинается с эмбеддингов (embeddings). Каждому слову присваивается случайная координата. Например, слово «love» может начинаться с [0.10, 0.30]. Поначалу эти числа ничего не значат.
Затем происходит внимание (attention).
Возьмем предложение: "The dog chased the cat because it was fast."
Модель должна решить, относится ли «it» к собаке или к кошке. У неё нет грамматических правил, которым нужно следовать. Она лишь смотрит на предыдущие слова и присваивает им оценку (score). Она спрашивает: «Насколько сильно я должна обратить на тебя внимание прямо сейчас?»
В результате получается таблица весов.
Для последовательности [I, love, pizza]:
- «love» может уделить 51% внимания слову «I» и 49% — самому себе.
- «pizza» видит всю картину целиком. Оно распределяет внимание между всеми тремя словами.
Это не метафора. Слово «love» начинается как один вектор. После механизма внимания оно становится новым вектором. Оно физически меняет свое положение в пространстве. Оно поглощает часть вектора от слова «I».
Слово «love» в контексте «I» — это иная математическая точка, чем «love», стоящее отдельно. Контекст — это просто математическое смешивание векторов.
Как оно обучается? Через крошечные сдвиги.
Когда модель ошибается в предсказании, обратное распространение ошибки (backpropagation) корректирует веса. Эти изменения малы. Вес может измениться с 0.400 до 0.397.
Одно крошечное изменение на 0.009 может превратить неверное предсказание в верное. GPT-3 делала это 300 миллиардов раз.
Это создает способность к обобщению без примеров (zero-shot generalization). Модель понимает, что «You» и «I» математически схожи. Она предсказывает «love» после «You», даже если никогда не видела этой конкретной пары. Она делает это благодаря геометрической близости.
Модель никогда не учит правила. Она учит направление.
Каждый вес — это крошечная стрелка компаса. Обучение направляет эти стрелки так, чтобы геометрия стала полезной. Здесь нет учебника грамматики. Есть только математика.
Источник: https://dev.to/pavan_kumar2004/gpt-has-no-idea-what-words-mean-thats-the-whole-point-16li
Дополнительное обучающее сообщество: https://t.me/GyaanSetuAi
