Penjelasan Embeddings Secara Sederhana

Komputer menyukai angka. Mereka membenci makna.

Bagi komputer, kata "happy" dan "joyful" hanyalah huruf-huruf yang berbeda. Mereka tidak tahu bahwa kata-kata ini berbagi perasaan yang sama.

Embeddings memecahkan masalah ini. Mereka mengubah kata-kata menjadi daftar angka. Angka-angka ini bertindak seperti koordinat GPS untuk makna.

Saat Anda mengubah kata menjadi angka, kata-kata yang serupa akan berada berdekatan dalam sebuah peta digital.

Vektor hanyalah sebuah daftar angka yang berurutan. "king" → [0.21, -0.44, 0.88] "queen" → [0.19, -0.41, 0.85]

Model asli menggunakan ribuan angka ini untuk satu kata. Anda tidak perlu melihat semuanya. Anda hanya perlu tahu seberapa dekat dua titik tersebut.

Kita menggunakan cosine similarity untuk mengukur kedekatan ini.

Ini mengubah makna menjadi geometri. Anda bahkan dapat melakukan perhitungan matematika dengan kata-kata.

Jika Anda mengambil vektor untuk "king," menguranginya dengan "man," dan menambahkannya dengan "woman," Anda akan mendarat di dekat "queen." Model mempelajari pola ini dari membaca miliaran kalimat.

Matematika ini menggerakkan alat-alat AI yang Anda gunakan setiap hari:

Anda tidak menghitung angka-angka ini sendiri. Anda mengirimkan teks ke sebuah model dan model tersebut mengembalikan vektornya. Anda kemudian menyimpan vektor-vektor ini dalam database vektor untuk mencarinya.

Embeddings mengubah misteri bahasa menjadi logika geometri.

Coba Meaning Map untuk melihat bagaimana kata-kata terhubung: https://dev48v.infy.uk/ai/days/day3-embeddings.html

Semua konsep: https://dev48v.infy.uk/aifromzero.php

Sumber: https://dev.to/dev48v/embeddings-explained-simply-how-ai-turns-words-into-a-map-of-meaning-36f4