Keajaiban Embeddings

Embeddings mengubah bahasa menjadi matematika.

Embeddings adalah fondasi AI modern. Banyak orang menganggapnya sebagai kotak hitam (black box). Postingan ini menjelaskan cara kerjanya.

Pencarian kata kunci (keyword search) gagal ketika kata-katanya tidak cocok.

Jika Anda mencari "How do I reset my password?", pencarian kata kunci akan mencari kata-kata yang persis sama. Jika sebuah dokumen berisi "Steps to recover your account credentials", pencarian tersebut mungkin gagal. Anda tahu maknanya sama, tetapi komputer tidak.

Embeddings memecahkan masalah ini.

Sebuah embedding adalah daftar angka. Angka-angka ini mewakili makna dari sebuah teks. Model embedding memetakan kata-kata ke dalam ruang berdimensi tinggi (high dimensional space).

Satu kata seperti "cat" menjadi sebuah vektor: [0.18, -0.42, 0.91, ...]

Angka-angka itu sendiri tidak berarti apa-apa. Yang penting adalah posisi vektor tersebut.

Bayangkan sebuah peta. Kota-kota yang berdekatan memiliki iklim dan perbatasan yang serupa. Embeddings bekerja dengan cara yang sama. Teks dengan makna serupa akan berada berdekatan dalam ruang vektor (vector space).

  • Anjing dan Kucing berada berdekatan.
  • Mobil dan Truk berada berdekatan.
  • Mobil dan Anjing berada berjauhan.

Jarak antara titik-titik ini mewakili kemiripan.

Ini memungkinkan pencarian semantik (semantic search). Anda dapat menemukan informasi berdasarkan maksud (intent), bukan sekadar ejaan.

Untuk membandingkan vektor-vektor ini, kita menggunakan cosine similarity. Metrik ini mengukur sudut antara dua vektor.

  • Sudut kecil berarti kemiripan tinggi.
  • Sudut besar berarti kemiripan rendah.

Embeddings juga menggerakkan Retrieval Augmented Generation (RAG). Dalam sebuah pipeline RAG, prosesnya terlihat seperti ini:

  1. Mengonversi dokumen menjadi vektor menggunakan model embedding.
  2. Menyimpan vektor dalam database vektor (vector database).
  3. Mengonversi kueri pengguna menjadi vektor.
  4. Mencari vektor terdekat di dalam database.
  5. Mengirimkan dokumen yang relevan ke LLM.

LLM tidak mencari file Anda secara langsung. Ia mencari kecocokan terdekat di dalam ruang embedding.

Jika Anda membangun aplikasi AI, Anda harus memahami embeddings. Embeddings menggerakkan segalanya, mulai dari mesin pencari hingga sistem rekomendasi. Kekuatannya terletak pada cara mereka mengatur makna.

Sumber: https://dev.to/tahaboussaden/embeddings-magic-2hlb

Komunitas belajar opsional: https://t.me/GyaanSetuAi