AI 모델이 실제로 작동하는 방식

이메일을 쓰거나 코드를 수정할 때 AI를 사용합니다. 대부분의 사람들은 이를 알고리즘이라고 부릅니다. 하지만 어떻게 작동하는지는 잘 모릅니다. 수학적 원리는 복잡할지 몰라도, 그 과정은 이해하기 매우 간단합니다.

핵심 아이디어는 예측입니다.

만약 "The cat sat on the"라고 입력하면, 모델은 다음 단어를 예측합니다. "mat"이라는 단어가 나올 확률이 높기 때문에 이를 선택합니다. 모델은 문장을 완성하기 위해 이 과정을 단어 단위로 반복합니다. 단어를 잘 예측하기 위해 모델은 문법, 사실, 그리고 논리를 학습합니다.

다음은 4단계 과정입니다:

  1. 토큰 (Tokens) 모델은 단어를 읽지 않습니다. 숫자를 읽습니다. 텍스트를 '토큰'이라고 불리는 작은 조각으로 나눕니다. 모든 토큰은 숫자 리스트가 됩니다. 모든 대화의 이면에는 거대한 규모의 수학적 연산이 이루어지고 있습니다.

  2. 학습 (Training) 학습은 모델이 배우는 방식입니다. 책과 웹사이트에서 가져온 수십억 페이지의 데이터를 모델에게 보여줍니다. 모델은 토큰을 예측하고 정답을 확인합니다. 만약 틀렸다면, 시스템은 내부 설정을 조정합니다. 이 과정을 수조 번 반복합니다. 사람이 직접 규칙을 작성하지 않습니다. 모델은 스스로 패턴을 찾아냅니다.

  3. 어텐션 (Attention) 이는 모델이 문맥을 이해하도록 돕습니다. "The trophy did not fit in the suitcase because it was too big"라는 문장에서 "it"은 트로피를 가리킵니다. 어텐션은 모델에게 이전 단어 중 어떤 것이 가장 중요한지를 알려줍니다. 이를 통해 모델은 긴 문단 전체의 의미를 파악할 수 있습니다.

  4. 미세 조정 (Fine-tuning) 가공되지 않은 모델은 단순한 예측 엔진일 뿐입니다. 미세 조정을 통해 모델은 어시스턴트 역할을 수행하는 법을 배웁니다. 사람이 답변의 품질을 평가하면, 모델은 이 평가를 바탕으로 유용하고 안전한 답변을 제공하는 법을 학습합니다.

전송 버튼을 누르면 어떤 일이 일어날까요?

여러분이 입력한 텍스트는 숫자로 변환됩니다. 이 숫자들은 여러 수학적 계층을 통과합니다. 모델은 다음 토큰이 나올 확률을 계산합니다. 토큰을 하나 선택하고, 답변이 완성될 때까지 이 과정을 반복합니다. 이 모든 과정은 단 몇 초 만에 이루어집니다.

AI는 마법이 아닙니다. 거대한 규모로 이루어지는 예측입니다. 이 원리를 이해하면 AI라는 도구를 더 잘 활용할 수 있습니다.

Source: https://dev.to/rameshkumarramu/ai-models-how-do-they-actually-work-2kmm

Optional learning community: https://t.me/GyaanSetuAi