Chinh phục việc phân tích tài liệu dài với LLM

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial3 tuần trước1min read

𝗧𝗮𝗺𝗶𝗻𝗴 𝗟𝗼𝗻𝗴 𝗗𝗼𝗰𝘂𝗺𝗲𝗻𝘁 𝗔𝗻𝗮𝗹𝘆𝘀𝗶𝘀 𝘄𝗶𝘁𝗵 𝗟𝗟𝗠𝘀

Tôi cần trả lời các câu hỏi từ các tệp PDF dài 100 trang. Một đoạn mã đơn giản đã thất bại. Tôi đã phải vật lộn với giới hạn token và chi phí cao trong nhiều tuần.

Đầu tiên, tôi thử dùng toàn bộ văn bản. Mô hình đã quên mất các chi tiết ở giữa. Chi phí lên tới 50 cent cho mỗi lần gọi.

Sau đó, tôi đã thử các phương pháp này:

Chia nhỏ cố định (Fixed chunks): Mô hình chọn sai các phần.
Map-reduce: Các bản tóm tắt làm mất đi các chi tiết.
Cửa sổ trượt (Sliding window): Nó quá chậm.

Tôi quyết định mô phỏng cách con người đọc. Con người thường đọc lướt trước, sau đó mới đọc kỹ.

Đây là quy trình của tôi:

Tạo một hệ thống phân cấp các đoạn (chunks).
Viết một bản tóm tắt ngắn cho mỗi đoạn.
Lưu trữ cả bản tóm tắt và văn bản thô vào một cơ sở dữ liệu vector (vector database).
Sử dụng tìm kiếm hỗn hợp (hybrid search) để tìm các bản tóm tắt tốt nhất.
Truy xuất văn bản thô từ các bản tóm tắt đó.
Sử dụng một prompt nghiêm ngặt để ngăn chặn tình trạng ảo giác (hallucinations).

Điều này đã thay đổi kết quả:

Chi phí giảm 70%.
Độ chính xác tăng lên.
Các thuật ngữ kỹ thuật vẫn được giữ nguyên.

Lời khuyên của tôi dành cho bạn:

Sử dụng các mô hình rẻ tiền để tóm tắt.
Sử dụng GPT-4 cho câu trả lời cuối cùng.
Xây dựng một bộ dữ liệu kiểm thử (test dataset) ngay trong tuần đầu tiên.
Bỏ qua bước này đối với các tài liệu dưới 20 trang.

Thiết lập của bạn cho các tài liệu dài là gì?

Nguồn: https://dev.to/__c1b9e06dc90a7e0a676b/how-i-finally-tamed-long-document-analysis-with-llms-it-wasnt-simple-chunking-5ed3 Cộng đồng học tập tùy chọn: https://t.me/GyaanSetuAi

Chinh phục việc phân tích tài liệu dài với LLM

Continue reading

𝗧𝗮𝗺𝗶𝗻𝗴 𝗟𝗼𝗻𝗴 𝗗𝗼𝗰𝘂𝗺𝗲𝗻𝘁𝘀 𝘄𝗶𝘁𝗵 𝗟𝗟𝗠𝘀

Biến kế hoạch của bạn thành dữ liệu

𝗖𝗼𝘀𝘁 𝗢𝗽𝘁𝗶𝗺𝗶𝘇𝗮𝘁𝗶𝗼𝗻 𝗳𝗼𝗿 𝗟𝗟𝗠 𝗦𝘆𝘀𝘁𝗲𝗺𝘀

𝗜 𝗕𝘂𝗶𝗹𝘁 𝗮 𝗖𝗼𝗱𝗲 𝗤&𝗔 𝗕𝗼𝘁 𝗪𝗶𝘁𝗵 𝗥𝗔𝗚: 𝗪𝗵𝗮𝘁 𝗪𝗼𝗿𝗸𝗲𝗱 𝗮𝗻𝗱 𝗪𝗵𝗮𝘁 𝗙𝗮𝗶𝗹𝗲𝗱

Chi phí tích hợp AI của tôi quá cao cho đến khi tôi thay đổi cách tiếp cận