𝗧𝗮𝗺𝗶𝗻𝗴 𝗟𝗼𝗻𝗴 𝗗𝗼𝗰𝘂𝗺𝗲𝗻𝘁 𝗔𝗻𝗮𝗹𝘆𝘀𝗶𝘀 𝘄𝗶𝘁𝗵 𝗟𝗟𝗠𝘀
Tôi cần trả lời các câu hỏi từ các tệp PDF dài 100 trang. Một đoạn mã đơn giản đã thất bại. Tôi đã phải vật lộn với giới hạn token và chi phí cao trong nhiều tuần.
Đầu tiên, tôi thử dùng toàn bộ văn bản. Mô hình đã quên mất các chi tiết ở giữa. Chi phí lên tới 50 cent cho mỗi lần gọi.
Sau đó, tôi đã thử các phương pháp này:
- Chia nhỏ cố định (Fixed chunks): Mô hình chọn sai các phần.
- Map-reduce: Các bản tóm tắt làm mất đi các chi tiết.
- Cửa sổ trượt (Sliding window): Nó quá chậm.
Tôi quyết định mô phỏng cách con người đọc. Con người thường đọc lướt trước, sau đó mới đọc kỹ.
Đây là quy trình của tôi:
- Tạo một hệ thống phân cấp các đoạn (chunks).
- Viết một bản tóm tắt ngắn cho mỗi đoạn.
- Lưu trữ cả bản tóm tắt và văn bản thô vào một cơ sở dữ liệu vector (vector database).
- Sử dụng tìm kiếm hỗn hợp (hybrid search) để tìm các bản tóm tắt tốt nhất.
- Truy xuất văn bản thô từ các bản tóm tắt đó.
- Sử dụng một prompt nghiêm ngặt để ngăn chặn tình trạng ảo giác (hallucinations).
Điều này đã thay đổi kết quả:
- Chi phí giảm 70%.
- Độ chính xác tăng lên.
- Các thuật ngữ kỹ thuật vẫn được giữ nguyên.
Lời khuyên của tôi dành cho bạn:
- Sử dụng các mô hình rẻ tiền để tóm tắt.
- Sử dụng GPT-4 cho câu trả lời cuối cùng.
- Xây dựng một bộ dữ liệu kiểm thử (test dataset) ngay trong tuần đầu tiên.
- Bỏ qua bước này đối với các tài liệu dưới 20 trang.
Thiết lập của bạn cho các tài liệu dài là gì?
Nguồn: https://dev.to/__c1b9e06dc90a7e0a676b/how-i-finally-tamed-long-document-analysis-with-llms-it-wasnt-simple-chunking-5ed3 Cộng đồng học tập tùy chọn: https://t.me/GyaanSetuAi