Embeddings Magic
Embeddings chuyển đổi ngôn ngữ thành toán học.
Chúng là nền tảng của AI hiện đại. Nhiều người coi chúng như một "hộp đen". Bài viết này giải thích cách chúng hoạt động.
Tìm kiếm theo từ khóa sẽ thất bại khi các từ không khớp nhau.
Nếu bạn tìm kiếm "How do I reset my password?", tìm kiếm theo từ khóa sẽ tìm chính xác những từ đó. Nếu một tài liệu ghi "Steps to recover your account credentials", việc tìm kiếm có thể thất bại. Bạn biết ý nghĩa của chúng là giống nhau, nhưng máy tính thì không.
Embeddings giải quyết vấn đề này.
Một embedding là một danh sách các con số. Những con số này đại diện cho ý nghĩa của văn bản. Một mô hình embedding ánh xạ các từ vào một không gian đa chiều.
Một từ đơn lẻ như "cat" trở thành một vector: [0.18, -0.42, 0.91, ...]
Bản thân các con số không có ý nghĩa gì cả. Điều quan trọng là vị trí của vector đó.
Hãy nghĩ về một bản đồ. Các thành phố nằm gần nhau thường có khí hậu và biên giới tương đồng. Embeddings cũng hoạt động theo cách tương tự. Các văn bản có ý nghĩa tương tự sẽ nằm gần nhau trong không gian vector.
- Chó và Mèo nằm gần nhau.
- Ô tô và Xe tải nằm gần nhau.
- Ô tô và Chó nằm xa nhau.
Khoảng cách giữa các điểm này đại diện cho sự tương đồng.
Điều này cho phép tìm kiếm ngữ nghĩa (semantic search). Bạn có thể tìm thấy thông tin dựa trên ý định thay vì cách đánh vần.
Để so sánh các vector này, chúng ta sử dụng độ tương đồng cosine (cosine similarity). Chỉ số này đo lường góc giữa hai vector.
- Góc nhỏ nghĩa là độ tương đồng cao.
- Góc lớn nghĩa là độ tương đồng thấp.
Embeddings cũng là động lực cho Retrieval Augmented Generation (RAG). Trong một quy trình RAG, quá trình diễn ra như sau:
- Chuyển đổi tài liệu thành các vector bằng cách sử dụng mô hình embedding.
- Lưu trữ các vector trong một cơ sở dữ liệu vector (vector database).
- Chuyển đổi truy vấn của người dùng thành một vector.
- Tìm các vector gần nhất trong cơ sở dữ liệu.
- Gửi các tài liệu liên quan đến LLM.
LLM không tìm kiếm trực tiếp trong các tệp của bạn. Nó tìm kiếm trong không gian embedding để tìm các kết quả khớp nhất.
Nếu bạn xây dựng các ứng dụng AI, bạn phải hiểu về embeddings. Chúng là nền tảng cho mọi thứ, từ công cụ tìm kiếm đến các hệ thống gợi ý. Sức mạnh của chúng nằm ở cách chúng tổ chức ý nghĩa.
Nguồn: https://dev.to/tahaboussaden/embeddings-magic-2hlb
Cộng đồng học tập tùy chọn: https://t.me/GyaanSetuAi
