LLMs के साथ लंबे दस्तावेज़ों के विश्लेषण को नियंत्रित करना
मुझे 100 पन्नों वाले PDFs से सवालों के जवाब देने की ज़रूरत थी। एक साधारण स्क्रिप्ट विफल रही। मैं हफ्तों तक टोकन लिमिट और भारी खर्चों से जूझता रहा।
सबसे पहले, मैंने पूरे टेक्स्ट (full text) को आज़माया। मॉडल बीच के विवरण भूल जाता था। खर्च प्रति कॉल 50 सेंट तक पहुँच गया।
फिर मैंने इन तरीकों को आज़माया:
- Fixed chunks: मॉडल ने गलत हिस्से चुन लिए।
- Map-reduce: सारांशों (summaries) में विवरण खो गए।
- Sliding window: यह बहुत धीमा था।
मैंने यह नकल करने का फैसला किया कि इंसान कैसे पढ़ते हैं। इंसान पहले सरसरी तौर पर पढ़ते हैं। फिर वे विस्तार से पढ़ते हैं।
मेरी प्रक्रिया यह है:
- चंक्स (chunks) का एक पदानुक्रम (hierarchy) बनाएँ।
- प्रत्येक चंक के लिए एक छोटा सारांश लिखें।
- सारांश और रॉ टेक्स्ट (raw text) दोनों को वेक्टर डेटाबेस में स्टोर करें।
- सबसे अच्छे सारांश खोजने के लिए हाइब्रिड सर्च (hybrid search) का उपयोग करें।
- उन सारांशों से रॉ टेक्स्ट प्राप्त करें।
- हैलुसिनेशन (hallucinations) को रोकने के लिए एक सख्त प्रॉम्प्ट (strict prompt) का उपयोग करें।
इससे परिणाम बदल गए:
- खर्च में 70 प्रतिशत की कमी आई।
- सटीकता (accuracy) बढ़ गई।
- तकनीकी शब्द बरकरार रहे।
आपके लिए मेरी सलाह:
- सारांश के लिए सस्ते मॉडल्स का उपयोग करें।
- अंतिम उत्तर के लिए GPT-4 का उपयोग करें।
- पहले हफ्ते में ही एक टेस्ट डेटासेट तैयार कर लें।
- 20 पन्नों से कम के दस्तावेज़ों के लिए इसे छोड़ दें।
लंबे दस्तावेज़ों के लिए आपका सेटअप क्या है?
Source: https://dev.to/__c1b9e06dc90a7e0a676b/how-i-finally-tamed-long-document-analysis-with-llms-it-wasnt-simple-chunking-5ed3 Optional learning community: https://t.me/GyaanSetuAi