ความมหัศจรรย์ของ Embeddings

Embeddings เปลี่ยนภาษาให้กลายเป็นคณิตศาสตร์

สิ่งเหล่านี้คือรากฐานของ AI สมัยใหม่ หลายคนมองว่ามันเป็นเหมือนกล่องดำ (black box) โพสต์นี้จะอธิบายว่าพวกมันทำงานอย่างไร

การค้นหาด้วยคำสำคัญ (Keyword search) จะล้มเหลวเมื่อคำไม่ตรงกัน

หากคุณค้นหาว่า "How do I reset my password?" การค้นหาด้วยคำสำคัญจะมองหาคำเหล่านั้นแบบเป๊ะๆ หากเอกสารระบุว่า "Steps to recover your account credentials" การค้นหาก็อาจจะไม่พบ ทั้งที่คุณรู้ว่าความหมายนั้นเหมือนกัน แต่คอมพิวเตอร์ไม่รู้

Embeddings ช่วยแก้ปัญหานี้

Embedding คือรายการของตัวเลข ตัวเลขเหล่านี้เป็นตัวแทนของความหมายของข้อความ โมเดล Embedding จะทำหน้าที่แปลงคำต่างๆ ให้อยู่ในพื้นที่หลายมิติ (high dimensional space)

คำเพียงคำเดียวอย่าง "cat" จะกลายเป็นเวกเตอร์ (vector): [0.18, -0.42, 0.91, ...]

ตัวเลขเพียงอย่างเดียวไม่มีความหมาย สิ่งที่สำคัญคือตำแหน่งของเวกเตอร์

ลองนึกถึงแผนที่ เมืองที่อยู่ใกล้กันมักจะมีสภาพอากาศและพรมแดนที่คล้ายคลึงกัน Embeddings ก็ทำงานในลักษณะเดียวกัน ข้อความที่มีความหมายคล้ายกันจะอยู่ใกล้กันในพื้นที่เวกเตอร์ (vector space)

  • สุนัขและแมวจะอยู่ใกล้กัน
  • รถยนต์และรถบรรทุกจะอยู่ใกล้กัน
  • รถยนต์และสุนัขจะอยู่ห่างกัน

ระยะห่างระหว่างจุดเหล่านี้คือตัวแทนของความคล้ายคลึงกัน

สิ่งนี้ช่วยให้เกิดการค้นหาเชิงความหมาย (semantic search) คุณสามารถค้นหาข้อมูลตามเจตนา (intent) แทนที่จะเป็นการสะกดคำ

ในการเปรียบเทียบเวกเตอร์เหล่านี้ เราจะใช้ cosine similarity ซึ่งเป็นตัวชี้วัดที่ใช้วัดมุมระหว่างเวกเตอร์สองตัว

  • มุมขนาดเล็กหมายถึงความคล้ายคลึงกันสูง
  • มุมขนาดใหญ่หมายถึงความคล้ายคลึงกันต่ำ

Embeddings ยังเป็นขุมพลังให้กับ Retrieval Augmented Generation (RAG) อีกด้วย ในกระบวนการ (pipeline) ของ RAG ขั้นตอนจะเป็นดังนี้:

  1. แปลงเอกสารให้เป็นเวกเตอร์โดยใช้โมเดล embedding
  2. จัดเก็บเวกเตอร์ไว้ใน vector database
  3. แปลงคำค้นหาของผู้ใช้ (user query) ให้เป็นเวกเตอร์
  4. ค้นหาเวกเตอร์ที่ใกล้ที่สุดในฐานข้อมูล
  5. ส่งเอกสารที่เกี่ยวข้องไปยัง LLM

LLM ไม่ได้ค้นหาไฟล์ของคุณโดยตรง แต่มันจะค้นหาในพื้นที่ embedding เพื่อหาข้อมูลที่ใกล้เคียงที่สุด

หากคุณสร้างแอปพลิเคชัน AI คุณจำเป็นต้องเข้าใจเรื่อง Embeddings เพราะมันเป็นขุมพลังของทุกอย่าง ตั้งแต่เครื่องมือค้นหา (search engines) ไปจนถึงระบบแนะนำ (recommendation systems) จุดแข็งของมันอยู่ที่วิธีการจัดระเบียบความหมาย

Source: https://dev.to/tahaboussaden/embeddings-magic-2hlb

Optional learning community: https://t.me/GyaanSetuAi