Các chiến lược Chunking trong RAG: Chia nhỏ tài liệu để truy xuất hiệu quả hơn

Hầu hết các lỗi RAG xảy ra do cách bạn chia nhỏ tài liệu.

Nếu khả năng truy xuất kém, đừng vội thay đổi prompt hay LLM trước tiên. Hãy xem xét các chunk của bạn. Nếu thông tin chính xác có trong cơ sở dữ liệu nhưng hệ thống không thể tìm thấy, rất có thể chiến lược chunking của bạn đang gặp vấn đề.

Chunking kém gây ra ba vấn đề chính:

• Cắt cụt ranh giới (Boundary truncation): Một câu chứa câu trả lời bị chia làm hai phần. Không phần nào có đủ thông tin để khớp với truy vấn. • Pha loãng ngữ cảnh (Context dilution): Một chunk lớn chứa một câu liên quan và mười câu vô ích. Phần văn bản thừa làm yếu đi tín hiệu ngữ nghĩa (semantic signal). • Thiếu metadata: Các chunk thiếu thông tin về nguồn hoặc ngày tháng, khiến việc tìm kiếm có bộ lọc trở nên bất khả thi.

Hãy sử dụng bốn chiến lược sau để khắc phục pipeline của bạn:

  1. Fixed-size chunking (Chia nhỏ theo kích thước cố định) Tốt nhất cho các văn bản dài và liên tục như báo cáo hoặc bài báo. • Sử dụng từ 256 đến 512 tokens. • Thiết lập độ chồng lấp (overlap) từ 10% đến 15% để tránh việc bị cắt ngang câu.

  2. Semantic chunking (Chia nhỏ theo ngữ nghĩa) Tốt nhất cho văn bản có mật độ thông tin cao như FAQ hoặc tài liệu hỗ trợ. • Nó chia nhỏ văn bản dựa trên sự thay đổi chủ đề thay vì số lượng token. • Điều này giúp giữ các ý tưởng trọn vẹn đi cùng nhau.

  3. Structural chunking (Chia nhỏ theo cấu trúc) Tốt nhất cho tài liệu kỹ thuật, Markdown hoặc HTML. • Nó chia nhỏ văn bản dựa trên các tiêu đề (H1, H2, H3). • Điều này bổ sung metadata để bạn có thể lọc kết quả truy xuất theo từng phần.

  4. Hierarchical (Parent-Child) chunking (Chia nhỏ phân cấp Cha-Con) Tốt nhất cho các hệ thống thực tế (production) cần cả độ chính xác và ngữ cảnh. • Tạo các chunk con nhỏ (64-128 tokens) để tìm kiếm vector chính xác. • Liên kết chúng với các chunk cha lớn (512-1024 tokens) để LLM đọc. • Cách này mang lại cho bạn ưu điểm của cả hai phương pháp.

Cách chọn kích thước:

• 128–256 tokens: Tốt cho việc tra cứu sự thật và tài liệu kỹ thuật. • 256–512 tokens: Điểm khởi đầu vững chắc cho các mục đích sử dụng chung. • 512–1024 tokens: Sử dụng cho các câu hỏi phân tích dạng dài.

Quy tắc vàng: Luôn kiểm tra chiến lược của bạn trước khi triển khai.

Hãy xây dựng một bộ gồm 30 đến 50 truy vấn thực tế. Gán nhãn các câu trả lời đúng. Đo lường chỉ số recall@3 của bạn. Đừng thay đổi mô hình embedding cho đến khi recall của bạn đạt trên 80%.

Nguồn: https://dev.to/dishant_sethi/rag-pipeline-chunking-strategies-split-documents-for-better-retrieval-aoe

Cộng đồng học tập tùy chọn: https://t.me/GyaanSetuAi