LLM-களைக் கொண்டு நீண்ட ஆவணங்களைக் கையாளுதல்

100 பக்கங்கள் கொண்ட தொழில்நுட்ப PDF-களிலிருந்து கேள்விகளுக்குப் பதிலளிக்கும் ஒரு அமைப்பை நான் உருவாக்கினேன்.

சாதாரண ஸ்கிரிப்ட்கள் தோல்வியடைந்தன. வாரக்கணக்கில் டோக்கன் வரம்புகள் (token limits) மற்றும் அதிக செலவுகளுடன் போராடினேன்.

எனது முதல் முயற்சியில் முழு உரையை (full text) GPT-4 உடன் பயன்படுத்தினேன். இது 10 பக்கங்களுக்குச் சரியாக வேலை செய்தது. ஆனால் 100 பக்கங்களுக்குச் சென்றபோது, டோக்கன் வரம்பை (token cap) எட்டிவிட்டேன். மாடல் நடுப்பகுதியில் உள்ள விவரங்களை மறந்துவிட்டது. செலவுகள் மிக அதிகமாக இருந்தன.

நான் இந்த முறைகளை முயற்சி செய்தேன்:

  • அடிப்படை Chunking: மாடல் தவறான பகுதிகளைத் தேர்ந்தெடுத்தது. அது சூழலை (context) தவறவிட்டது.
  • Map-reduce: நான் குறிப்பிட்ட விவரங்களை இழந்தேன்.
  • Sliding windows: இது மிகவும் மெதுவாகவும் செலவு மிகுந்ததாகவும் இருந்தது.

மனிதர்கள் எப்படிப் படிக்கிறார்கள் என்பதை நான் பின்பற்றினேன். நாம் முதலில் பொருளடக்கத்தைத் (table of contents) மேலோட்டமாகப் பார்ப்போம். பிறகு குறிப்பிட்ட பகுதிகளைப் படிப்போம்.

இதோ புதிய பணிப்பாய்வு (workflow):

  • ஒரு படிநிலை அமைப்பை (hierarchy) உருவாக்குங்கள். ஒவ்வொரு chunk-க்கும் ஒரு சிறிய சுருக்கத்தை உருவாக்க LLM-ஐப் பயன்படுத்துங்கள்.
  • சுருக்கங்களையும் முழு உரையையும் ஒரு vector database-இல் சேமிக்கவும்.
  • Hybrid search-ஐப் பயன்படுத்துங்கள். Keywords மற்றும் semantic search ஆகியவற்றை இணைக்கவும்.
  • முதலில் முதல் 3 சுருக்கங்களைப் பெறுங்கள் (Retrieve).
  • அந்தச் சுருக்கங்களுக்கான முழு உரையைப் பெறுங்கள்.
  • இந்தச் சூழலை (context) LLM-க்கு வழங்கவும்.

முடிவுகள்:

  • செலவுகள் 70% குறைந்துவிட்டன.
  • தொழில்நுட்பச் சொற்கள் இப்போது துல்லியமாக உள்ளன.
  • துல்லியம் மேம்பட்டுள்ளது.

உங்கள் அமைப்பிற்கான (setup) குறிப்புகள்:

  • சுருக்கங்களுக்கு GPT-3.5-ஐப் பயன்படுத்துங்கள்.
  • இறுதிப் பதிலுக்கு GPT-4-ஐப் பயன்படுத்துங்கள்.
  • ஆரம்பத்திலேயே ஒரு சோதனைத் தரவுத்தொகுப்பை (test dataset) உருவாக்குங்கள்.
  • 20 பக்கங்களுக்கும் குறைவான ஆவணங்களுக்கு, முழு உரையையும் நேரடியாக Prompt-இல் கொடுக்கலாம் (Stuff the prompt).

ஆதாரம்: https://dev.to/__c1b9e06dc90a7e0a676b/how-i-finally-tamed-long-document-analysis-with-llms-it-wasnt-simple-chunking-5ed3