𝗗𝗼𝗺𝗮𝗶𝗻 𝗦𝗽𝗲𝗰𝗶𝗳𝗶𝗰 𝗩𝗲𝗰𝘁𝗼𝗿 𝗥𝗲𝘁𝗿𝗶𝗲𝘃𝗮𝗹: 𝗠𝗼𝗱𝗲𝗹𝘀 𝘁𝗼 𝗗𝘂𝗮𝗹 𝗩𝗮𝗹𝗶𝗱𝗮𝘁𝗶𝗼𝗻

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial4 ngày trước2min read

Truy vấn Vector theo Lĩnh vực: Từ Lựa chọn Mô hình đến Xác thực Kép

Các mô hình embedding đa dụng thường thất bại khi xử lý văn bản chuyên ngành.

Trong dự án ESG gần đây của tôi, việc sử dụng mô hình ada-002 của OpenAI đã dẫn đến hai vấn đề lớn:

18% nội dung liên quan không bao giờ được tìm thấy.
12% kết quả bị sai. Ví dụ, khi tìm kiếm "Scope 1 emissions" thì kết quả trả về lại là "Scope 3 emissions."

Vấn đề không nằm ở ngưỡng tương đồng (similarity threshold). Đó là sự trôi dạt ngữ nghĩa (semantic drift). Các mô hình đa dụng không hiểu được những khác biệt tinh vi trong các lĩnh vực chuyên biệt như ESG, pháp lý hoặc văn bản y tế.

Dưới đây là giải pháp ba lớp để khắc phục vấn đề này.

1. Lựa chọn mô hình Chúng tôi đã thử nghiệm bốn mô hình. Mặc dù việc tự triển khai (self-hosting) BGE-M3 có vẻ rẻ hơn, nhưng thực tế nó tốn kém gấp 6 lần do chi phí máy chủ GPU và thời gian phát triển.

Chúng tôi đã chọn text-embedding-3-large vì:

Nó đạt tỷ lệ recall 91%.
Nó duy trì sự ổn định với văn bản dài.
Nó mang lại ROI tốt nhất.

2. Giảm thiểu trôi dạt ngữ nghĩa Ngay cả những mô hình tốt nhất cũng nhầm lẫn giữa "low-carbon" với "zero-carbon." Tôi đã triển khai một chiến lược tăng cường (augmentation strategy) gồm ba bước:

Từ điển chuyên ngành: Một bản đồ gồm hơn 500 thuật ngữ kèm theo định nghĩa và các quy tắc "phân biệt với".
Gợi ý Prompt: Chèn ngữ cảnh từ từ điển vào mô hình trong quá trình mã hóa (encoding).
Xếp hạng lại sau truy vấn (Post-retrieval Reranking): Tăng điểm cho các từ đồng nghĩa và giảm điểm cho các thuật ngữ không liên quan.

Điều này đã giúp giảm tỷ lệ dương tính giả (false positive rate) từ 12% xuống còn 3%.

3. Xác thực kép Độ tương đồng vector đo lường khoảng cách toán học, chứ không phải sự liên quan về mặt kinh doanh. Để đảm bảo độ chính xác, tôi đã thêm một hệ thống kiểm tra kép:

Lớp 1: Khớp từ khóa cứng (Keyword hard match). Kết quả phải chứa các thuật ngữ cốt lõi bắt buộc.
Lớp 2: Xác thực chéo ngữ nghĩa bằng LLM. Một LLM sẽ kiểm tra xem đoạn văn bản (chunk) đó có thực sự trả lời câu hỏi hay không.
Lớp 3: Kiểm tra xác suất thủ công. Đánh giá hàng tháng để ngăn chặn sự suy giảm chất lượng hệ thống.

Điều này đã cải thiện độ chính xác từ 70% lên 94%.

Bài học rút ra Nếu dữ liệu của bạn sử dụng thuật ngữ chuyên ngành, đừng chỉ dựa vào một phương pháp tìm kiếm vector duy nhất. Bạn cần một từ điển, các gợi ý chuyên ngành và một lớp xác thực kép để chuyển đổi từ sự tương đồng toán học sang sự liên quan về mặt kinh doanh.

Source: https://dev.to/jamesli/part-3-vector-retrieval-in-domain-specific-terminology-scenarios-from-model-selection-to-dual-3485

Optional learning community: https://t.me/GyaanSetuAi

𝗗𝗼𝗺𝗮𝗶𝗻 𝗦𝗽𝗲𝗰𝗶𝗳𝗶𝗰 𝗩𝗲𝗰𝘁𝗼𝗿 𝗥𝗲𝘁𝗿𝗶𝗲𝘃𝗮𝗹: 𝗠𝗼𝗱𝗲𝗹𝘀 𝘁𝗼 𝗗𝘂𝗮𝗹 𝗩𝗮𝗹𝗶𝗱𝗮𝘁𝗶𝗼𝗻

Continue reading

Phase 1: Document Ingestion