ความมหัศจรรย์ของ Embeddings
Embeddings เปลี่ยนภาษาให้กลายเป็นคณิตศาสตร์
สิ่งเหล่านี้คือรากฐานของ AI สมัยใหม่ หลายคนมองว่ามันเป็นเหมือนกล่องดำ (black box) โพสต์นี้จะอธิบายว่าพวกมันทำงานอย่างไร
การค้นหาด้วยคำสำคัญ (Keyword search) จะล้มเหลวเมื่อคำไม่ตรงกัน
หากคุณค้นหาว่า "How do I reset my password?" การค้นหาด้วยคำสำคัญจะมองหาคำเหล่านั้นแบบเป๊ะๆ หากเอกสารระบุว่า "Steps to recover your account credentials" การค้นหาก็อาจจะไม่พบ ทั้งที่คุณรู้ว่าความหมายนั้นเหมือนกัน แต่คอมพิวเตอร์ไม่รู้
Embeddings ช่วยแก้ปัญหานี้
Embedding คือรายการของตัวเลข ตัวเลขเหล่านี้เป็นตัวแทนของความหมายของข้อความ โมเดล Embedding จะทำหน้าที่แปลงคำต่างๆ ให้อยู่ในพื้นที่หลายมิติ (high dimensional space)
คำเพียงคำเดียวอย่าง "cat" จะกลายเป็นเวกเตอร์ (vector): [0.18, -0.42, 0.91, ...]
ตัวเลขเพียงอย่างเดียวไม่มีความหมาย สิ่งที่สำคัญคือตำแหน่งของเวกเตอร์
ลองนึกถึงแผนที่ เมืองที่อยู่ใกล้กันมักจะมีสภาพอากาศและพรมแดนที่คล้ายคลึงกัน Embeddings ก็ทำงานในลักษณะเดียวกัน ข้อความที่มีความหมายคล้ายกันจะอยู่ใกล้กันในพื้นที่เวกเตอร์ (vector space)
- สุนัขและแมวจะอยู่ใกล้กัน
- รถยนต์และรถบรรทุกจะอยู่ใกล้กัน
- รถยนต์และสุนัขจะอยู่ห่างกัน
ระยะห่างระหว่างจุดเหล่านี้คือตัวแทนของความคล้ายคลึงกัน
สิ่งนี้ช่วยให้เกิดการค้นหาเชิงความหมาย (semantic search) คุณสามารถค้นหาข้อมูลตามเจตนา (intent) แทนที่จะเป็นการสะกดคำ
ในการเปรียบเทียบเวกเตอร์เหล่านี้ เราจะใช้ cosine similarity ซึ่งเป็นตัวชี้วัดที่ใช้วัดมุมระหว่างเวกเตอร์สองตัว
- มุมขนาดเล็กหมายถึงความคล้ายคลึงกันสูง
- มุมขนาดใหญ่หมายถึงความคล้ายคลึงกันต่ำ
Embeddings ยังเป็นขุมพลังให้กับ Retrieval Augmented Generation (RAG) อีกด้วย ในกระบวนการ (pipeline) ของ RAG ขั้นตอนจะเป็นดังนี้:
- แปลงเอกสารให้เป็นเวกเตอร์โดยใช้โมเดล embedding
- จัดเก็บเวกเตอร์ไว้ใน vector database
- แปลงคำค้นหาของผู้ใช้ (user query) ให้เป็นเวกเตอร์
- ค้นหาเวกเตอร์ที่ใกล้ที่สุดในฐานข้อมูล
- ส่งเอกสารที่เกี่ยวข้องไปยัง LLM
LLM ไม่ได้ค้นหาไฟล์ของคุณโดยตรง แต่มันจะค้นหาในพื้นที่ embedding เพื่อหาข้อมูลที่ใกล้เคียงที่สุด
หากคุณสร้างแอปพลิเคชัน AI คุณจำเป็นต้องเข้าใจเรื่อง Embeddings เพราะมันเป็นขุมพลังของทุกอย่าง ตั้งแต่เครื่องมือค้นหา (search engines) ไปจนถึงระบบแนะนำ (recommendation systems) จุดแข็งของมันอยู่ที่วิธีการจัดระเบียบความหมาย
Source: https://dev.to/tahaboussaden/embeddings-magic-2hlb
Optional learning community: https://t.me/GyaanSetuAi
