LLMs के साथ लंबे दस्तावेज़ विश्लेषण पर काबू पाना

आपकी भाषा के लिए अनुवादित. मूल पढ़ें.

AI-सहायता प्राप्त ड्राफ़्ट.

GyaanSetu Editorial3 सप्ताह पहले1मिनट पढ़ें

LLMs के साथ लंबे दस्तावेज़ों के विश्लेषण को नियंत्रित करना

मुझे 100 पन्नों वाले PDFs से सवालों के जवाब देने की ज़रूरत थी। एक साधारण स्क्रिप्ट विफल रही। मैं हफ्तों तक टोकन लिमिट और भारी खर्चों से जूझता रहा।

सबसे पहले, मैंने पूरे टेक्स्ट (full text) को आज़माया। मॉडल बीच के विवरण भूल जाता था। खर्च प्रति कॉल 50 सेंट तक पहुँच गया।

फिर मैंने इन तरीकों को आज़माया:

मैंने यह नकल करने का फैसला किया कि इंसान कैसे पढ़ते हैं। इंसान पहले सरसरी तौर पर पढ़ते हैं। फिर वे विस्तार से पढ़ते हैं।

मेरी प्रक्रिया यह है:

चंक्स (chunks) का एक पदानुक्रम (hierarchy) बनाएँ।
प्रत्येक चंक के लिए एक छोटा सारांश लिखें।
सारांश और रॉ टेक्स्ट (raw text) दोनों को वेक्टर डेटाबेस में स्टोर करें।
सबसे अच्छे सारांश खोजने के लिए हाइब्रिड सर्च (hybrid search) का उपयोग करें।
उन सारांशों से रॉ टेक्स्ट प्राप्त करें।
हैलुसिनेशन (hallucinations) को रोकने के लिए एक सख्त प्रॉम्प्ट (strict prompt) का उपयोग करें।

इससे परिणाम बदल गए:

आपके लिए मेरी सलाह:

लंबे दस्तावेज़ों के लिए आपका सेटअप क्या है?

पढ़ना जारी रखें