LLMs द्वारे लांब दस्तऐवजांवर मात करणे

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial३ आठवड्यांपूर्वी1min read

𝗧𝗮𝗺𝗶𝗻𝗴 𝗟𝗼𝗻𝗴 𝗗𝗼𝗰𝘂𝗺𝗲𝗻𝘁𝘀 𝘄𝗶𝘁𝗵 𝗟𝗟𝗠𝘀

मी १०० पानांच्या तांत्रिक PDF मधून प्रश्नांची उत्तरे देणारी एक प्रणाली तयार केली.

साधे स्क्रिप्ट्स अपयशी ठरले. मी अनेक आठवडे टोकन मर्यादा आणि उच्च खर्चाशी संघर्ष केला.

माझ्या पहिल्या प्रयत्नात मी पूर्ण मजकुरासाठी GPT-4 वापरले. हे १० पानांसाठी काम करत होते. १०० पानांवर पोहोचल्यावर, मी टोकन मर्यादेपर्यंत पोहोचलो. मॉडेल मधला तपशील विसरू लागले. खर्च खूप जास्त होता.

मी या पद्धती वापरून पाहिल्या:

बेसिक चंकिंग (Basic chunking): मॉडेलने चुकीचे विभाग निवडले. त्याचा संदर्भ (context) सुटला.
मॅप-रिड्यूस (Map-reduce): मी विशिष्ट तपशील गमावले.
स्लाइडिंग विंडोज (Sliding windows): हे खूप संथ आणि महाग होते.

मी मानवी वाचन पद्धतीची नक्कल केली. आपण प्रथम अनुक्रमणिका (table of contents) वर नजर टाकतो. त्यानंतर आपण विशिष्ट विभाग वाचतो.

ही आहे नवीन कार्यप्रणाली (workflow):

एक श्रेणीबद्ध रचना (hierarchy) तयार करा. प्रत्येक चंकसाठी (chunk) थोडक्यात सारांश तयार करण्यासाठी LLM वापरा.
सारांश आणि पूर्ण मजकूर वेक्टर डेटाबेसमध्ये (vector database) साठवा.
हायब्रिड सर्च (hybrid search) वापरा. कीवर्ड्स आणि सिमेंटिक सर्च (semantic search) यांचे एकत्रीकरण करा.
प्रथम पहिले ३ सारांश मिळवा (retrieve).
त्या सारांशांसाठी पूर्ण मजकूर मिळवा.
हा संदर्भ (context) LLM ला द्या.

निकाल:

खर्च ७०% ने कमी झाला.
तांत्रिक शब्द आता अचूक आहेत.
अचूकता सुधारली.

तुमच्या सेटअपसाठी काही टिप्स:

सारांशांसाठी GPT-3.5 वापरा.
अंतिम उत्तरासाठी GPT-4 वापरा.
सुरुवातीलाच एक टेस्ट डेटासेट तयार करा.
२० पानांपेक्षा कमी असलेल्या दस्तऐवजांसाठी प्रॉम्प्टमध्ये थेट मजकूर भरा (Stuff the prompt).

स्रोत: https://dev.to/__c1b9e06dc90a7e0a676b/how-i-finally-tamed-long-document-analysis-with-llms-it-wasnt-simple-chunking-5ed3

LLMs द्वारे लांब दस्तऐवजांवर मात करणे

Continue reading

अंतर्गत एआय चॅटबॉटची निर्मिती: शिकलेले धडे

LLMs सह लांब दस्तऐवज विश्लेषणावर मात करणे

कार्यक्षम LLM सर्व्हिंगच्या दिशेने

𝗜 𝗦𝗽𝗲𝗻𝘁 $𝟱𝟬𝟬 𝗼𝗻 𝗥𝗔𝗚 𝗜𝗻𝗳𝗿𝗮𝘀𝘁𝗿𝘂𝗰𝘁𝘂𝗿𝗲 𝗕𝗲𝗳𝗼𝗿𝗲 𝗙𝗶𝘅𝗶𝗻𝗴 𝗧𝗵𝗲𝘀𝗲 𝟳 𝗠𝗶𝘀𝘁𝗮𝗸𝗲𝘀

𝗜 𝗦𝗽𝗲𝗻𝘁 \$𝟱𝟬𝟬 𝗼𝗻 𝗥𝗔𝗚 𝗜𝗻𝗳𝗿𝗮𝘀𝘁𝗿𝘂𝗰𝘁𝘂𝗿𝗲 𝗕𝗲𝗳𝗼𝗿𝗲 𝗠𝗮𝗸𝗶𝗻𝗴 𝟳 𝗠𝗶𝘀𝘁𝗮𝗸𝗲𝘀